酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

用户投稿 141 0

嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?

出品:科普中国

制作:孙雪聪(中科院噪声与振动重点实验室)

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

监制:中国科学院计算机网络信息中心

不知道你是否有这样的经历,月底穷困潦倒的你中午走进人潮喧哗的食堂,正在心里疯狂比较哪个菜更便宜时,忽然听到五米开外某人的一声“咱们发工资了”,于是你理直气壮地对食堂阿姨喊道:“加个鸡腿!”

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

△(图片来源:修改自《家有儿女》)

还有,不管在哪里,周围有多吵,一旦有人叫自己的名字,总是能听到。人能够在如此嘈杂的环境下精确捕捉到想听到的声音,甚至还能知道声音的方位,相比之下,现在的很多智能设备却做不到这一点 ,这究竟是为什么呢?

人的听觉为什么具有选择性

说起人的听觉,有一个著名的效应——鸡尾酒会效应 ,它是指在喧闹的鸡尾酒会上,参会者大脑中的听觉系统可以将他的注意力集中约束在他感兴趣的谈话内容上,而自动忽略其他“无关”的噪声,即使周围环境非常嘈杂。

然而,这种我们人类用两只耳朵就能搞定的小问题,对于智能音箱等语音交互设备来说,却并不是那么容易的。当它们身处嘈杂的环境时,很容易就受到各种来路不明的声音的连环暴击,最终陷入我是谁我在哪我在干嘛的死循环中无法自拔 (感兴趣的同学可以打开你身边的语音交互设备尝试一下)…于是,攻(工)城(程)狮(师)们 本着大力出奇迹的原则,不惜斥巨资为它们装上很多个金光闪闪的麦克风用来接收声音,又去全世界各地搜罗各种各样的声音数据,没日没夜地投喂它们。但是,机器们学习的效果不是十分理想,鸡尾酒会问题至今仍然困扰着世界各地的语音攻城狮们。

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

这时有的同学可能就要坐不住了:“就这?还用学?看来我的学霸属性就要藏不住了!”这位同学你先冷静一下,事情可并不是你想的那么简单哟。

其实,你能具有这种听觉选择能力首先要感谢你的妈妈给了你两只忽闪忽闪的大耳朵,这使得你的耳膜并不是像麦克风一样是直接裸露在空气中的 。你的耳廓、头部、肩膀、躯干等身体部位对于声音来说像是一个“迷宫”,来自不同方位的声音需要从不同的入口进入,经历上述部位的一系列反射后最终到达“迷宫”的中心——耳膜 ,然后你的大脑就能感知到这个声音啦。

由于声波所走过的路径不同,它们的频谱也会发生不同程度的修改 。在这个“迷宫”的不同位置,仿佛潜伏着一群造型师(没错,就是让你又爱又恨的Tony老师),声波路过时总是难免被“改造”一番。由于这些造型师们风格迥异、水平参差不齐,在大脑看来,这些声波就变得各有特色,所以很容易区分,怎么说呢…有点像…

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

所以当你还是个小baby的时候,你还没能累积足够多的听音经验,你的大脑对这些改造过的声音可能一时无法辨认,因此导致你对声音的辨别能力可能比较弱。随着你慢慢长大,听到的声音越来越多,你的大脑就会慢慢摸清套路,建立一套自己的算法(数据库) ,这样即使是好几个声音同时出现在你面前,你也能很轻松地区分他们。

机器怎么获取辨音能力

那么问题来了!能不能让机器像我们人一样,拥有能够分辨不同声音的能力呢?答案是肯定哒!前不久,中科院声学所的杨军研究员团队就提出了一种基于声学超材料的单通道多声源定位与分离系统 ,只使用一个带有超材料外壳的单通道传声器,即可实现三维空间中多个同时发声声源的实时定位与分离。研究成果发表在了综合类期刊Advanced Science上。

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

别...别激动…说人话就是——给麦克风做了一个忽闪忽闪的“大耳朵”,不过这个耳朵跟我们的耳朵差别有点大,它长这样…

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

△左图:超材料结构模型图 右图:超材料结构实物图(图片来源:作者绘制与拍摄)

我们暂且叫他“蜂窝耳” 吧。这个“蜂窝耳”由外中内三层半球壳嵌套而成,每一层球壳上都随机设置大小不一的圆孔,球壳之间随机插入了若干块横向和纵向的挡板来制造大小不一的腔体,在球心位置则放着一个单通道的麦克风。这些大小随机的圆孔和隔板使“蜂窝耳”具有高度的空间不对称性,因此会对来自不同方向的声波起到不同的调制效果

这个“蜂窝耳”中的声学结构就像是一个个风格迥异的Tony老师,声波经过时总是难逃老师们的“改造”,这位老师画个眉毛,那位老师涂个口红,所以等它到麦克风的面前时,早就不是它原本的样子啦。

你可能已经猜到,“蜂窝耳”的学名就是——声学滤波器 。刚才所说的声波的“改造”过程其实就是滤波过程,滤波后的声信号频谱会发生相应的改变,因此被麦克风接收到的信号就会产生与来波方向有关的差异性了。

那么问题又来了——你以为声波们长得不一样,机器就能很快辨别出来吗?想得美!

我们还需要训练一个算法,让机器提取这些声波身上的独家特征,最终定位和识别来自不同方向的声音 。拥有这个算法就好像拥有了一本Tony老师们的《造型百科全书》,里面记录了各位Tony老师的改造技能和偏爱风格。从某种意义上说,这个算法也可以帮助广大男同胞完美应对女朋友每日的灵魂拷问:“你觉得我今天有什么不一样吗?”是不是很想来一套!

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

机器戴耳记

一切准备就绪,我们的“蜂窝耳”就可以正式上岗啦!

来自不同方向的声波从外表面不同的位置进入“蜂窝耳”,经过不同的传播路径时被不同的造型师改造,被球形的麦克风接收;熟读《造型百科全书》的算法对接收信号进行处理,最终重建出它们的来波方向和声音的内容。这种超材料结构+智能算法的组合,只用一个麦克风就能实现多声源的实时定位和分离 。攻城狮们再也不用担心麦克风数量不够用啦!

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

△“蜂窝耳”的工作流程(图片来源:作者绘制)

你是不是也很好奇“蜂窝耳”的效果如何呢?来看看研究人员针对多个生活场景进行的听音测试。

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

△实验场景(图片来源:作者拍摄)

“蜂窝耳”(图片红框里)放在中间,周围均匀放置16个音响用于播放测试所用的声音。测试所用到的声音包括马路上的鸣笛声、动物的叫声、各种乐器声、人说话的声音等等,好奇心爆棚的笔者曾一度跑到“蜂窝耳”的位置,试图挑战一下这个听音测试,当时的场景大概是这个样子的…

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

不过,这对训练有素的“蜂窝耳”来说就是小菜一碟啦。当空间中同时发声的声源不超过三个,定位与分离的准确率可以达到90%以上,耗时也不超过1s,是不是棒棒哒!

当然,现在的“蜂窝耳”还只能算一个小baby,它的声学结构设计和后端算法仍有待进一步的磨合和提升 ,研究人员也正在马不停蹄地研发“蜂窝耳”2.0版本。随着语音技术的发展,我们身边越来越多的电子设备都搭载了语音交互系统,希望这个“蜂窝耳”能让这些设备更加智能,使人与机器之间的交互更加流畅和便捷。

参考文献:

SUN Xuecong, JIA Han, ZHANG Zhe, YANG Yuzhen, SUN Zhaoyong, YANG Jun. Sound Localization and Separation in 3D Space Using a Single Microphone with a Metamaterial Enclosure. Advanced Science n/a, 1902271.

论文链接:https://doi.org/10.1002/advs.201902271

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

即梦AI画图教程:(三十八)声境迷航——多维度歌唱场景

从教堂穹顶的圣咏到街角电流嘶吼,歌唱是人类灵魂的立体投影。本章解锁18个高燃声场构建方案,结合光影动力学与声波可视化技术,让AI捕捉那些震颤空气粒子的高光瞬间。

一、仪式化声场

案例1:穹顶福音

提示词:

哥特教堂玫瑰花窗投射彩色音阶,管风琴音管生长水晶藤蔓,合唱团的长袍褶皱泛起声波涟漪,阳光穿透尘埃形成神圣柱状光束,启用空气粒子振动渲染算法

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例2:海底演唱会

提示词:

荧光水母随低音鼓点胀缩,人鱼歌者身旁蓝鲸游动,沉船甲板长出珊瑚麦克风架,启用流体阻力动态模糊+深海压力光畸变

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

二、赛博舞台革命

案例3:全息偶像破茧

提示词:

数据茧房裂纹迸发霓虹极光,AI歌姬发梢流淌二进制代码,应援棒光轨构成实时情绪云图,舞台裂缝生长出机械神经藤蔓,启用故障艺术与生物光融合渲染

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例4:地铁声波隧道

提示词:

隧道墙壁镶嵌共振LED矩阵,说唱者脏辫释放电磁脉冲,涂鸦字符随押韵节奏浮动,列车进站气流掀起乐谱碎片雨,启用多普勒效应视觉化插件

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例5:废墟电音祭

提示词:

核爆遗址竖起巨型音响矩阵,DJ台由战斗机残骸改造,辐射云随节奏裂变几何图形,观众防毒面具闪烁VJ信号,启用废墟粒子化与高饱和荧光对撞

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

注:这幅作品最终构建了一个充满悖论的未来寓言——人类在自我制造的灾难现场起舞,用狂欢对抗虚无,用创造消解毁灭,既是末日终曲,也是文明涅槃的序章。目的是呼吁大家爱护环境、热爱和平,不让图片里的场景变成现实。请不要过度解读。

三、自然声景共生

案例6:瀑布混响崖

提示词:

悬崖洞穴天然形成声学透镜,民谣歌手手握吉他倚靠钟乳石,麦克风放在身前,水雾折射出和声频率彩虹,萤火虫群随扫弦节奏明灭,启用水文动力学+洞穴混响模拟器

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例7:冰川回声谷

提示词:

蓝冰洞顶垂落冰晶风铃,歌手原生态呼麦引发冰裂光纹,冻土突然生长出雪莲形状共振腔,极光随长调起伏如掀动的绸缎,启用次声波可视化与低温结晶算法

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例8:竹林啸音阵

提示词:

竹林里,侠客吹竹笛,竹叶飘落,露珠在叶片间传递声波光点,石桌上摆放一把古琴

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

四、超现实K歌空间

案例9:情绪解压舱

提示词:

球形舱室内壁实时生成歌词云,歌手高音撕裂虚拟焦虑黑茧,麦克风握柄检测心率变化色温,眼泪在下坠过程中结晶成音符,脑电波可视化

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例10:太空练歌房

提示词:

失重环境下音波凝成液态球体,歌手唱歌,耳机线缠绕成行星环,玻璃面罩倒映星云旋律轨迹,呼吸水珠漂浮,启用零重力流体物理引擎

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例11:记忆回响屋

提示词:

讲台上放老式录音机,小学生唱歌,音符从录音机里飘出,黑板乐谱被值日生擦出旋律残影,启用时光滤镜

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

五、日常共鸣声场

案例12:天台日落弹唱

提示词:

老旧居民楼天台铁丝网挂满LED串灯,吉他盒敞开散落零钱,夕阳在金属水箱投射菱形光斑,宠物狗趴在地面打拍子,远处晾衣架随和弦晃动

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例13:校园礼堂排练

提示词:

阳光穿过舞台幕布缝隙,钢琴表面反射谱架稿件,学生指挥用荧光棒划出节拍轨迹,合唱台阶残留粉笔标记的走位符号

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例14:夜市驻唱大排档

提示词:

塑料凳围绕简易折叠舞台,歌手在舞台上唱歌,烧烤烟雾与灯光形成丁达尔效应,鼓手用铁桶改装架子鼓,食客手机闪光灯组成星海,启用电线杂乱质感渲染

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例15:河畔蓝调酒吧

提示词:

红砖墙挂满复古黑胶唱片,表演者在舞台上吹萨克斯,观众台上威士忌杯沿凝结水珠折射萨克斯金光,舞台地灯照亮乐谱架上的啤酒渍,启用木质纹理与黄铜氧化细节

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例16:家庭聚会KTV

提示词:

儿童拿着麦克风看着大屏电视上的歌词唱歌,茶几堆满零食与无线话筒,儿童抱着毛绒玩具当观众,生日气球因高音震动微微摇晃

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例17:时光维修店

维修店里,改装皮卡后斗架着90年代组合音响,维修工具堆旁摆着立麦,中年维修工看着手机在唱歌,机油桶当吧凳,地面积水倒映啤酒瓶与霓虹灯牌,灯牌上写着“时光维修店”

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

案例18:快递站民谣小哥

提示词:

快递员午休时抱着木吉他坐纸箱堆,工牌挂绳粘着拨片,电子面单打印机吐出歌词小票,扫码枪红光在琴弦投射节奏标记

酒吧ai声 嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令

六、技术共振法则

1.声波可视化公式

①高频区(>2000Hz)使用锐利光刃+破碎粒子

②中频区(200-2000Hz)采用流体波纹+丝绸光轨

③低频区(<200Hz)匹配地面震动裂纹+压力光晕

2.设备参数清单

①动圈麦克风:金属噪点+电磁干扰纹

②电容麦:空气离子流+声压级光晕

③吉他拾音器:生成磁场线+木材共振年轮扩散

3.透视场域调整

①演唱会场景:鱼眼透视+仰视15°突显张力

②私密空间:浅焦柔光+平行视角增强沉浸

③自然声场:散点透视叠加空气粒子层级

结语

当AI学会在分贝中提取色谱,在共振峰里捕捉情感脉冲,每个歌唱场景都成为解码灵魂波形的实验场。

当技术回归生活本真,AI创作同样能捕捉阳台上哼歌时衣摆的晃动弧度,记录烧烤摊上的呼喊。这些带着烟火气的声景,或许才是技术最温暖的落地姿态。

#即梦AI软件创作##ai画图教程##AI场景应用#​

(声明:文中图片均由即梦AI生成,原创内容受知识产权保护)

相关问答

v8酒吧:首页-图吧地图

v8酒吧【9分钟了解】全平台版APPv8.6.192013年5月2日,“重庆不雅视频案”女主角赵红霞涉嫌敲诈勒索一案进入审查起诉阶段。此外,台积电暂停了一些本地AI芯片生...

抱歉,评论功能暂时关闭!