By超神经
场景描述:近日GoogleBrain团队对外发布了Parrotron项目,帮助人和设备更准确地理解具有语音障碍的人。Parrotron从音频分析入手,从语音信号的角度来解决问题。它通过单个端到端深度神经网络训练,将来自语音障碍人士的语音,直接转换为流利的合成语音,从而帮助他们解决交流上的问题。
关键词:构音障碍深度神经网络机器翻译
DimitriKanevsky,出生于50年代的俄罗斯,他的成长阶段经历了中苏冷战,但他仍然完成学业,并获得了数学博士学位。
他的求学、工作足迹从俄罗斯开始,辗转于以色列、德国,最终选择留在了美国,并成为了谷歌的研究科学家,专注于语音识别算法领域。
似乎是一个学霸精英的人生路径:受到良好的教育,获得美国绿卡、光鲜的工作、项美国科学技术专利,最后在硅谷登顶人生巅峰。
故事却远远没这么简单,DimitriKanevsky并不是一个普通人。大多数人都难以想到,他还是听障人群中的一员。
DimitriKanevsky在一岁时,因为药物导致了耳聋,但他的家庭依旧为他选择了正常的教育,他从小就开始学习读唇、发声,一直就读于普通学校。并在十几岁的时候,通过俄语发音的辅助,开始学习英语。
但在学习英语时,因为听力障碍、俄语发音差别等原因,他在语言交流上存在很大的障碍。他说出的语句比较模糊,常常是对方听不懂的表达。甚至连对自己的家人的口头关怀,都有可能无法递达。
简单来说,他说的英语大多数人很难直接听懂,为了解决自己的问题,也帮助更多和自己面临类似问题的人群,DimitriKanevsky一直在攻克语音识别方向的课题。
有时只为完成一些普通的交流
DimitriKanevsky需要借助语音转文字的工具
在医学上,这种说话不清楚的情况称为「构音障碍dysarthria」。据统计,因为身体疾病而导致构音障碍的情形,在全世界多达一百万人。
构音障碍是由于神经病变,与言语有关的肌肉麻痹、收缩力减弱或运动不协调所致的言语障碍,通俗的说法是「口齿不清」。
比如中风,大脑麻痹,帕金森病,唐氏综合症,ALS(渐冻症)等诸多疾病,都会造成这一状况。
对方说了叽里咕噜的一堆
你听到的却是呜呜哇哇的一串杂音...
同样在谷歌,一位叫AubrieLee的品牌市场经理,被诊断出罕见的肌肉萎缩症(渐冻症),导致她长时间要在轮椅上度过。
全身肌肉的不断流失,也造成了她在交流上的困难。Aubrie在听力和发音上都异常吃力,还因为无法微笑而常常被人误解。此外她还拥有多种口音,发音并不清晰,在对话时对方往往无法明白她的意思。
为了帮助DimitriKanevsky和AubrieLee这样的同伴,解决他们在语言上的难题,构音困难逐渐成了谷歌AI研究团队的一个科研方向。
关怀语言障碍者,谷歌推出突破性工具
几年前,Kanevsky带着30年的语音识别经验,加入谷歌的AI研究组,那时还没有能让他和其他人正常沟通的便捷工具。每次开会,Kanevsky都需要提前预定CART服务,依赖字幕员进入到会议中,将语音信息敲到屏幕上进行对话。
同样的,Aubrie和自己同事们,也都需要花费很大的力气,才能完成常人轻松胜任的工作交流。但这种窘境,正在慢慢地成为历史。
年2月,谷歌推出了一款App——LiveTranscribe,为便携式的语言转化带来了曙光。它是一款即时转录真实世界语音的应用程序,使用手机自带的麦克风,即可将语音转换为实时显示的文字。
随后,在5月份的谷歌I/O大会上,ProjectEuphoria被提出,这个计划为ALS导致的语言受损人群,提供一套语音到文字的解决方案。
ProjectEuphoria中谷歌训练AI模型以适应语言障碍在这个月,谷歌推出了一款新的AI工具Parrotron,能够直接将模糊的声音,转化成标准的合成音。这将解决语言障碍的技术又往前推进了一步。
Parrotron由端到端的深度神经网络组成,从音频分析的角度入手,在使用时,测试者对着手机等设备说话,就能快速的得到转述后的标准发音。
在论文《Parrotron:AnEnd-to-EndSpeech-to-SpeechConversionModelanditsApplicationstoHearing-ImpairedSpeechandSpeechSeparation》中,Parrotrn表现优异,语音识别和转化的正确率都有了新的突破。
论文