快捷搜索:  www.ymwears.cn

Facebook开源Demucs项目,让音乐更加智能

(文章滥觞:雷锋网)

音乐源分离,是使用技巧将一首歌曲分化成它的组成因素,如人声、低音和鼓。这和人类大年夜脑的事情很类似,大年夜脑可以将一个零丁的对话,从周围的噪音和一房子的人谈天平分离出来。假如你拥有原始的录音室多轨录音,这很轻易实现,你只需调剂混音来分离一个音轨。然则,假如你从一个通俗MP3音频文件开始,所有的乐器和声音都被混杂到一个立体声录音中,纵然是最繁杂的软件法度榜样也很难正确地挑出一个部分。

Facebook AI 的钻研职员已经开拓了一个系统,可以做到这一点——正确度高得惊人。创建者名叫亚历山大年夜·笛福兹(Alexandre Defossez),是Facebook人工智能巴黎实验室的科学家。笛福兹的系统被称为Demucs,这个名字滥觞于“音乐资本深度提取器”,其事情道理是检测声波中的繁杂模式,对每种乐器或声音的波形模式建立一个高层次的理解,然后使用人工智能将它们奇妙地分分开来。

笛福兹说,像Demucs这样的技巧,不仅能赞助音乐家进修繁杂的吉他即兴重复段落;总有一天,它还能让人工智能助手在喧华的房间里更轻易听到语音指令。笛福兹说他的目标是让人工智能系统长于识别音频源的组成部分,就像它们现在可以在一张照片中准确地区分不合的物体一样。“我们在音频方面还没有达到同样的水平,”他说。

声源分离经久以来不停吸引着科学家。1953年,英国认知科学家科林·切里(Colin Cherry)创造了“鸡尾酒会效应”这个词语,用来描述人类在拥挤喧华的房间里专注于一次发言的能力。工程师们首先试图经由过程调剂立体声录音中的阁下声道,或调剂均衡器设置来前进或低落某些频率,从而隔离歌曲的人声或吉他声。基于声谱图的人工智能系统,在分离出以单一频率响起或共振的乐器的音符方面相对有效,例如钢琴或小提琴旋律。

这些旋律在声谱图上显示为清晰、继续的水平线。然则隔离那些孕育发生残存噪音的撞击声,比如鼓,低音拍击,是一项异常艰难的义务。鼓点感到像一个单一的、实时的整体事故,但它实际上包孕了不合的部分。对付鼓来说,它包括覆盖较高频率范围的初始撞击,随后是在较低频率范围内的无音高衰减。笛福兹说,一样平常的小鼓“就频率而言,到处都是”。

声谱图只能将声波体现为光阴和频率的组合,无法捕捉到这样的细微区别。是以,他们将鼓点或拍子低音处置惩罚成几条不继续的垂直线,而不是一个划一、无缝的声音。这便是为什么经由过程声谱图分离出来的鼓和低音轨道,听起来经常是隐隐不清的。

基于人工智能的波形模型避免了这些问题,由于它们不试图将一首歌放到光阴和频率的僵化布局中。笛福兹解释说,波形模型的事情要领与谋略机视觉相似,谋略机视觉是人工智能的钻研领域,旨在让谋略机学会从数字图像中识别模式,从而得到对视觉天下的高档理解。

谋略机视觉应用神经收集来检测基础模式——类似于在图像中发明角落和边缘——然后揣摸更高档或更繁杂的模式。“波形模型的事情要领异常相似,”笛福兹说。他说清楚明了波形模型若何必要几秒钟来适应歌曲中的凸起频率——人声、低音、鼓或吉他——并为每一个元素天生零丁的波形。然后,它开始揣摸更高比例的布局,以增添细微区别,并精细雕刻每个波形。

笛福兹说,他的系统也可以比作探测和记录地震的地震仪。地震时,地动仪的底座会移动,但吊挂在上面的重物不会移动,这使得附着在重物上的笔可以画出记录地面运动的波形。人工智能模型可以探测到同时发生的几个不合的地震,然后揣摸出每个地震的震级和强度的细节。同样,笛福兹的系统阐发并分离出一首歌曲的原先面貌,而不是根据预先设定的声谱图布局来瓜分它。

他首先应用了Wave-U-Net(https://github.com/f90/Wave-U-Net)的底层架构,这是一个为音乐源分分开拓的早期人工智能波形模型。然则他有很多事情要做,由于声谱图模型的体现优于Wave-U-Net。他经由过程添加线性单元来微调波形收集中阐发模式的算法参数。笛福兹还增添了是非期影象,这种布局容许收集处置惩罚全部数据序列,如一段音乐或一段视频,而不仅仅是一个数据点,如图像。笛福兹还前进了Wave-U-Net的速率和内存应用率。

这些改动赞助Demucs在一些紧张方面赛过Wave-U-Net,比如它若何处置惩罚一种声音胜过另一种声音的问题。“你可以想象一架飞机起飞,引擎噪音会淹没一小我的声音,”笛福兹说。

曩昔的波形模型,经由过程简单地移除原始音频源文件的一部分来处置惩罚这个问题,然则它们不能重修损掉材料的紧张部分。笛福兹增强了Demucs解码器的能力,“Demucs可以从新创建它觉得存在但却迷掉在混音中的音频。” 这意味着他的模型可以从新合成可能被响亮的铙钹声损掉的柔和的钢琴音符,由于它理解应该出现什么样的声音。

这种重构和分离的能力使Demucs比其他波形模型有上风。笛福兹说,Demucs已经与最好的波形技巧相匹配,并且“远远越过”最先辈的声谱技巧。在盲听测试中,38名介入者从50首测试曲目中随机抽取8秒钟进行听音,这50首曲目由三个模型分开:Demucs、领先波形、频谱图技巧。听众觉得Demucs在质量和无伪影(如背景噪音或掉真)方面体现最佳。

Demucs已经引起了人工智能喜欢者的兴趣,精晓技巧的读者可以从GitHub下载Demucs的代码(https://github.com/facebookresearch/demucs)。代码用MusDB数据集来分离音乐源。笛福兹解释说,跟着Demucs的成长,它将为人们在家中创作音乐的数字音频事情站带来声音的真实性。这些事情站供给了能够唤起特如期间或风格的合成仪器,平日必要对原始硬件进行大年夜量的数字化改造。

想象一下,假如音乐源分离技巧能够完美地捕捉20世纪50年代摇滚歌曲顶用电子管放大年夜器吹奏的老式空心体电吉他的声音。Demucs让音乐喜欢者和音乐家离这一能力更近了一步。

(责任编辑:fqj)

您可能还会对下面的文章感兴趣: