每逢年末,各类融资消息多不胜数,百万起步,上不封顶。在这其中,一条并不起眼的数千万人民币的融资消息引人注意。
这几年,在市场、技术、政策等多重影响下,曾经浮浮沉沉的AI正在各个行业普及开来。从应用层面来看,AI初创公司大多以人脸识别落地;而SpeakIn(势必可赢科技)却另辟蹊径以声纹识别为刃攻克各个行业的城池壁垒,为传统行业赋能,并于近期获得新一轮千万融资。
欲用声纹识别攻破安防圈
SpeakIn 于2015在硅谷创立,聚焦声纹生物信息ID,商业化落地主要包含四大块:1、安防领域;2、民生领域;3、金融领域;4、智能硬件。针对这些场景,目前已推出多套产品及解决方案。
SpeakIn COO易鹏宇坦称道,在这其中,公司战略优先级最高的当属安防领域,落地方式主要有两种:
防止电信诈骗。如今,各地公安部门都有个人信息采集系统,包括人脸、指纹、声音等信息都有录入。如果该案件涉及到声音辨识,便可通过该系统轻松找到嫌疑人。
帮助寻找丢失儿童。如果怀疑某人是被拐卖儿童,在系统内输入其声音,只要之前有他们的视频、声音,通过对两者的对比,就可判定是否是被拐卖儿童。易鹏宇解释说,对于公安部门来说,这是一个新的手段,但会受到年龄跨度的阻碍。
而就此,今年6月,SpeakIn还与公安部门合作建立“智能声纹系统联合实验室”,共同投入研发公安业务与安防领域的先进产品与系统,用声纹识别技术为社会安定和国家安全提供服务和保障。
声纹识别的“前世今生”
雷锋网了解到,该技术最早诞生于上世纪四十年代的贝尔实验室。它是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,简单来说就是辨别某一句话是否是某一个人说的技术。
它常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等等,主要抽取说话人声音的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等参数表征,然后再与模式识别等传统匹配方法结合进行声纹识别。
易鹏宇告诉雷锋网,一宗案件中,同时具有指纹、人脸、声音的案件少之又少。互联网时代下,很多犯罪行为都是通过微信、电话等网络设备,声音成为最明显的突破口。
对此,公安部门也早已意识到。雷锋网了解到,多年之前,我国就有设立声纹识别中心,一些工作经验丰富的专家用一些很传统的软件通过识别声音频谱图,花上五个小时、甚至十个小时去听辨一条声音。方言口音、轻重音、韵律特征、发音习惯、语流中的吞音现象、鼻韵味的发音特征、声音基频等等都是在声纹专家辅助系统之前,人力需要判断的声纹特征,一个案子可能一周都听不完,办案效率非常低下。
即便如此,这种作业模式目前还在各个公安部门中广泛使用。
其实,从理论上来说,声纹就像指纹一样,是具有唯一性的生物信息特征,该技术在美国也一直被广泛使用。据悉,美国联邦调查局对2000例与声纹相关的案件进行统计,利用声纹作为证据只有0.31%的错误率。截至目前,已经为美国警方破获了几千起案件,为办案人员提供了有效的线索和证据。
显然,相比美国,该技术在我国的推广、使用略为缓慢。究其原因,主要因此前国内相关公司技术上的不成熟让声纹识别在公安那里吃了‘闭门羹’。“声音是人类最自然的交互方式之一,但相比于人脸识别技术,声纹技术在超大规模识别能力上前些年一直没有太大的突破。”易鹏宇说道。
在他看来,如今是时候全面应用了。
从技术角度来看,目前在十万的声纹库中寻单一声音,SpeakIn可以做到 Top10(相似值),命中率可达99%点几。而据雷锋网了解,目前全国最大的声纹库大概是五到六万,从这来看,帮助警方成功破案时一件非常大概率的事情。
声纹识别如何切入安防行业
在与公安部门多次交流中,易鹏宇发现公安的需求非常明确,主要围绕能“破案”展开,并且是能快速、方便、智能地破案。
他介绍说,公安部门引入声纹识别技术之后,把案件声音录入系统(智能声纹鉴定专家辅助系统),随之与库中语音相比对,之后该声音通过机器学习拆分成多个音素的频谱图,五分钟后就可以判别声音归属,并给出很好的排名结果(TOP值),提升办案效率。
而这其中主要得益于两大“功臣”:
声音采集方面有多信道的麦克风,其中装载多信道脉冲,八个麦克风可以收集来自不同信道的音源,包括微信、电话、手机等。易鹏宇透露,在一个设备上集成这些麦克风非常有必要,每个信道来的声音会有细微的差别,通过该技术后,无论是移动3G信号,还是移动4G信号,系统都可以精确区分。
另一块是软件系统,名为鉴定工作站。有声音的采集、输入、比对、鉴定和结果的输入,后面还有一套本地部署的私有云服务作支撑。
总体而言,最终SpeakIn为公安客户提供的是一套完整的解决方案及服务。
声纹识别可用性如何?
声智科技CEO陈孝良博士此前接受雷锋网专访时曾表示,现在大部分研究都是有关动态声纹实时检测,动态检测的方法自然要利用静态检测的各种原理方法,同时也需要增加其他很多算法, 比如VAD、降噪、去混响等。VAD的目的是检测是不是人的声音,降噪和去混响是排除环境干扰,这不仅对于声纹检测很中重要,对于语音识别更加重要。
VAD常用两个方法,基于能量检测和LTSD(Long-Term Spectral Divergence),当前用的较多是LTSD,另外特征提取方面还需要:动态时间规整 (DTW)、矢量量化 (VQ)、支持向量机 (SVM),模型方面则需要隐马尔可夫模型 (HMM)和高斯混合模型 (GMM)。
虽然声纹识别的唯一性很好,但实际上现有的设备和技术仍然很难做出准确分辨,特别是人的声音还具有易变性,易受身体状况、年龄、情绪等的影响,主要包括:
1、外界噪音;
2、多人说话;
3、身体状况;
4、情绪影响。
就此,易鹏宇也坦承,声纹识别技术的应用对于环境的要求的确比较苛刻,噪音干扰等问题仍是声音领域的难点。(因为不仅对声纹,语音语义识别也面临着噪声等问题)
他同时也强调说,声纹识别在智能硬件等领域应用充当娱乐功能;用作公安、金融等领域,认证手段也并非独立或者优先使用,它与其他生物识别方式是并存的。不同类型的生物识别各有优势,很多时候都是配合使用,多了一道屏障,绝非当且仅当。
值得一提的是,随着技术的不断成熟,公安部为采购这些设备还正式颁布了《安防声纹识别应用系统技术要求》的行业标准。换言之,声音也是可以作为证据进行鉴定的。
小结
“不同于人脸识别的大规模数据库,声纹识别的难点在于目前声纹库的规模还有待扩充;另外,在声音领域还有类似鸡尾酒会这样的技术难关需要攻克,想要做好这件事,必须保持耐心。”易鹏宇说道。
的确,都是深度学习基于数据驱动的模型,与人脸识别一样,声纹识别的训练也需要庞大的数据积累及对数据的精确标注。
而相比人脸识别,声纹识别难上加难。
声纹识别训练库的建立,至少要保证性别比例分布为50%±5%,包含有不同年龄段、不同地域、不同口音、不同职业。同时,测试样本应该涵盖文本内容是否相关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感因素等影响声纹识别性能的主要因素。
也就是说,声纹识别对数据的要求其实比语音识别还要高很多,这条路会很难。但庆幸的是,我国目前也有像SpeakIn这样的AI初创公司在坚持做拓荒者。用易鹏宇的话说,“这不正是创业者需要做的事吗?”