4月11日消息,越来越多的业内人士认为,语音技术在两三年内,会彻底改变当前的人机交互方式。北美最大的语音技术提供商Nuance的高管最近就说:“语音和自然语义理解突然成为一门前沿科技,而我们正站在这个过渡点上。我认为语音识别将真正颠覆目前的计算机交互接口。”
整个语音行业从2010年苹果公司推出Siri开始,受到越来越多的关注。这个趋势从国内最大的语音技术厂商科大讯飞的股价也能看出。科大讯飞2008年上市之初市值只有约34亿元,市盈率不到30倍。但最近一年股价节节高攀,目前市值达到140亿元,市盈率约70倍。
为何语音行业受到如此重视?国内这个行业的供应商都有哪些?这个行业中的核心技术包括哪些?语音行业前景和想象的市场空间有多大?我们计划分2期来具体分析这些问题。
智能语音技术改变传统交互方式
智能语音交互首先改变的是移动互联网。以iPhone中内置的Siri为例,用户以自然语言的方式对智能手机下达指令,而手机根据用户语音和用户当前的环境及上下文对用户意图进行理解,并按照用户意图执行命令的过程。如用户说“查找附近的川菜馆”,则手机会搜索用户当前所在位置附近的川菜风味餐厅,并将列表显示出来供用户选择查看。
百度多媒体负责人余凯曾表示“如今的语音搜索不同于传统搜索模式,不是基于无关联的几个关键词来反馈结果,而是能够理解用户指令,完成一项完整的任务。”也就是说,语音搜索已经不仅局限于将客户需要的信息呈现出来,还会将一些连锁信息进行反馈,自动生成给客户一套全面的服务,基于这种高智能化的技术进化,语音必将成为日后移动互联网的入口之一。
电视和机顶盒也是采用智能语音交互比较积极的行业。传统的电视机和机顶盒的遥控操作都比较复杂,而采用智能语音交互技术,只需对着遥控器说话,就可以控制电视,输入文字、打开应用、播放视频都可轻松实现。去年三星、LG和联想等都发布了带有专用语音输入功能的遥控器,甚至有的还实现了类似Siri的语音助手的功能。
传统行业利用智能语音交互技术进行业务效率提升的意愿也比较强烈。比如传统呼叫中心领域,需要投入大量资金、人力,甚至建设大面积的人工语音座席,每年投入上百亿资金。国外早已普遍采用基于智能语音交互技术改造的呼叫中心,大量的用户常见问题、投诉和建议都可以被自动识别和回复,节省了成本。而且这些呼叫中心每天收到大量的用户语音数据,包含了庞大数量的用户信息、偏好,都具有极大价值。但是如果不能利用智能语音技术进行数据处理和挖掘,这些信息就如同储量庞大的金矿,却无法开采。为了开发这些数据,传统呼叫中心都对投入智能语音交互技术抱有极大热情。
另外,汽车、玩具、穿戴设备都对智能交互技术能提供的全新交互方式抱有很大的期待。语音技术作为一个已经渐渐成熟的基础技术,随着使用面日渐扩大,必将越来越改变传统的人机交互方式。
国内语音行业的供应商
在中国的语音技术市场竞争格局中,有多家商业公司都可以提供语音技术。但细分下来,这些商业公司又可以分为两个类别,第一类是百度、科大讯飞和云知声,他们都有以大词汇量连续语音识别技术为基础的智能语音开放平台,服务的领域比较通用,对识别精度、速度、平台并发能力、稳定性等技术指标的要求较高。其中,科大讯飞和云知声分别于2010年10月和2012年10月发布了各自的商用公有语音云平台。
科大讯飞是上市公司,在语音技术领域中属于大佬级别,专攻语音合成和语音识别技术,对于内容问答的积累,并不是它的强项,而在这一点上,则正好是百度的优势,百度基于它强大的搜索平台,在搜索和服务数据的积累上,成就了业内无人能及的强大优势。至于云知声,虽然是领域内的新兴企业,但核心技术团队在语音识别和语义理解领域的也有超过10年的积累,实力不容小觑,凭借其自身优秀的研发团队、高品质的服务和快捷的技术支持,在业内迅速获得了一定程度的认可。
另外,从业务形态来说,百度目前只支持自家的语音搜索产品;云知声作为独立的语音识别平台为第三方开发者提供服务;科大讯飞则是两者兼备,在为第三方开发者提供平台的同时,也大力推广讯飞语点等应用,谋求移动终端的语音入口地位。所以,科大讯飞和云知声虽然市场知名度远远低于百度,但因为服务的客户较多,却经常被媒体提及,比如最近他们同时入选罗永浩的“锤子手机”系统的语音服务提供商。
另外,根据笔者了解,百度和云知声的语音识别核心技术团队,是毕业于中科院自动化所的同门师兄弟,凭借自动化所近30年的语音识别研究积累的熏陶,技术实力相当雄厚。中科院在目前语音识别产业化人才培养方面,确实做出了卓越的贡献。
第二类公司则包括捷通、中科信利、思必驰、纳象立方等。这几个公司主要专注于特定领域的语音技术应用,如语音合成、孤立词或小词汇量语音识别、非实时语音数据处理等,在通用大词汇量语音识别技术上一般不涉及。但即使如此,在他们专注的特定领域,这几个公司都有不错的业绩。如捷通在电信领域的语音合成业务上占有率不小;纳象立方则主要为电视台提供字幕自动对齐技术服务,年销售额据说也非常可观。
另外,国内的互联网巨头如腾讯、搜狗、阿里巴巴等目前都在积极建设语音团队,不想错过这波热潮。但是由于语音技术比较尖端,人才培养困难,特别是领军人才稀缺,技术壁垒很高,所以这些巨头即使投入巨大资源,也不一定能迅速组成一个完整的技术团队。要想建成成熟可用的系统,至少也要数年时间。以百度为例,从开始组建语音识别团队,历时近4年才推出成型的语音识别产品。这其中的原因我们下一次再继续深度分析。