声音识别技术真的能识别出蒙面圣战士吗?

最新的伊斯兰圣战视频中,蒙面圣战士说话明显带着英国口音,使他初步被确认为是来自伦敦东部的穆斯林宗教信仰者Siddhartha Dhar。据称声音识别专家与英国情报服务部门合作使用声音分析技术。但这一技术如何工作,其能力如何?
当听到一个非常熟悉的声音时,大部分人都能够在仅听到几个词后就识别出说话的人,而不那么熟悉的声音可能会需要较长的时间。如果所说的单词上下文或内容很熟悉,那么识别声音就更加简单。通常当试图进行记录比对和寻找匹配时,机器也面对着同样的条件。旨在通过声音确定人员的计算系统——说话人识别系统——在它们是否旨在检测出以下内容上有所区别:已知说话人的存在;将语音与几个已知的说话人进行匹配;检测出未知记录中的易识别声音;或者证实语音记录确实来自于预期说话人。
现代系统倾向于采用大数据方法,同时机器学习算法也用大量已知记录进行训练从而能够识别出不同说话人的声音特征。这一想法重点在于不同说话人之间明显不同的重要特征能够被自动学习。作为对比,老式方法需要详细指明哪种类型的语言和语音特征比较重要,以便能够在说话人之间进行比对。虽然我们并不知道哪些特征组合对于语音识别来说更好,但我们将它们分类为声学或语言学。

声学和语言学特征

声学特征是指人类如何发出声音的特征。当我们说话的时候,空气从肺中吐出,穿过气管,经过咽喉,从嘴巴和鼻子中呼出。在经过这些地方的时候,声带产生振动,而声带的放松或收缩改变了振动频率,就产生了声音的音调。

声带和鼻腔内部的某些部位,比如说舌头、牙齿和嘴唇——也就是所谓的发音器官——会改变声音,从而产生不同的共振——即共振峰——造就了其他不同的语音特征。我们听到的语音就是空气经过这些器官、在这些身体部位之中和之间产生的所有这些相互作用的组合体结果。
我们每一个人都有独特的语音特征:肺部呼气的方式、声带共振、发音器官都会产生独特的声音。一个人的「a」和另一个人的会非常不同——而这只是英语44个音素(组成单词的语音最小单位)的其中一个。我们的语言将音素组合在一起的方式以及从一个音素转变到另一个音素的方式也不同,而导致上述情况的就是语速。考虑一下英国乡村口音的稳定节奏和圆润的唇元音以及大城市里普遍更快、断续的语言之间的区别吧。
语言特征与我们选择哪种音素和以哪种频率说这种音素有关,而不是它们是如何产生的。如果我说「tomahto」,而你说「tomayto」,我们说的其实是同一个单词,只是选择了不同的音素。基于熟悉程度、区域差异和代沟不同,会有很多不同的发音。单词的选择、不同的单次、语法模式、暂停/重音的特点、句子或短语的结构也能够提供一种区别不同说话人的方式。
而在更高的级别上,仍然是单词本身的意义。我们倾向于做出不同的选择,选择我们说什么以及我们如何做出选择——我们说话的方式是如何的直接、或有冲突的、或闪烁其词的、或充满智慧的。如果你曾遇到某些人,并且认为他们说话像是律师、老师或艺术家,那么你用来识别这些人身份的模式也能被计算机识别出来。

弄清楚这一切

在计算方面,首先,语言和声学特征是独立的,将大量数据压缩成可管理的特征组能有效捕获到重要的细微差别。其次模式匹配被用来将这些语音和来自于另一记录的语音进行比较。
语音特征能够被自动提取,包括音调、共振峰频率、声道长度以及说音节的频率。某些现代方式能够用更低级的特征表现的更好,所需处理更少,并提供更少的内在意义。这些通常是二维的仅有时间和频率的图谱,比如声谱图。
复杂语音减少至一组更简单的典型特征,之后应用一种广义模式匹配进行处理,从而确定如何进行最好比对,并确定模式匹配有多契合。给予足够的优质语音进行分析,我们能够将说话人确定为一组嫌疑人的其中之一。能够进行双向对比的语音越多,匹配度就越好。在一开始所述的案例中,专家有好几份Dhar仍在英国时参加面试的记录。
如果没有嫌疑人的话,想要完成任务几乎不可能,这就像是大海捞针。但我们从一份记录里的说话人所能学到和推断的本身就能将大海的范围缩小到一个可控的范围。比如,专业听者能够缩小家庭区域、年龄、性别、情绪等范围,可能还能够推断出说话人的教育程度。在某些情况,语音专家能够推断出说话人的出生地、父母是否说另一种语言、他们最近是否住在别的地方,可能甚至还能推断出他们何时离开英国。

科幻小说或现实?

虽然很多都处于保密,但相信说话人识别技术已被国家安全机构(比如英国的GCHQ、美国的NSA和中国的公安局等)用于实践。普遍认为在某些国家的机场出入境柜台已经开始捕获声纹了,这可能也解释了为什么在处理过程中你可能会被问及一两个毫无意义的问题——毕竟面部识别已经广泛应用于机场,声音识别为什么不会呢?
来自于GoVivace、iFlytek、IBM和Nuance的商业声音匹配技术可能至少比政府所使用的技术落后一代。目前这项技术的有用程度尚有争议,但已被金融机构作为说话人验证手段成为日常应用——提供证据证明这些人是他们自己所号称的人。
声纹分析已经在上世纪70年代被用于刑事案件,成败掺半,通常用于证明给定记录中的语音属于某个特定的说话人,这种情况下的要求较低。而试图将某个说话人与大量可能的潜在说话人进行匹配要难得多,更不用说可能正确的匹配并不在上述范围内了。但这并非不可能,因为系统总是在不断改进的。
本文选自The Conversation,作者:Ian McLoughlin,机器之心编译出品,编译:柒柒。



精彩评论 0

还可以输入100个字,评论长度3个中文字符以上
95919000:2017-11-24 04:24:46