车载语音系统有哪些门道? 听听小鹏汽车的负责人怎么说

[搜狐汽车·黑客] 前几年,在谈及车机系统的发展预期时,车企会拿广义的“互联网思维”说事;如今,智能手机人手一部,让车机系统“手机化”的趋势日渐明朗了,也更具象了……

说到手机,想来大家经常遇到“打字说不清楚,电话(语音)聊”的情况,直抒胸臆正是语音沟通的核心优势。换到车机,语音系统同样是人机交互最直观的方式、最关键的载体,近的可以代替传统按钮(旋钮)操作,远的甚至可以真正的交流。

为此,本文咱们就来聊聊车载语音系统的事。此次我们邀请了小鹏汽车(以下简称小鹏)感知融合与语音负责人赵恒艺进行了1对1线上连线,以下为采访内容的整理。

小鹏汽车感知融合与语音负责人赵恒艺

[·小鹏说:用语音的越来越多 OTA优先车主反馈·]

关于小鹏的语音系统,赵工一上来就分享了两个数据。常规的是,使用“小P”(车载语音系统)的小鹏车主已从最初的75%增长到了90%(92%左右)以上;更高阶的是,用户平均每天唤醒语音的次数达到了12次。

就这两个数据代表的意义同样有两点。一是表面的,车主使用语音系统更多、更频繁了;二是深层的,即用户的依赖度越来越高,这一点在笔者看来,与用惯了智能手机就很难再用回诺基亚可谓异曲同工,新功能在最初的适应期过后,取代传统的趋势已经不可逆了。

另外,包括语音系统在内的整个车机,小鹏的OTA升级并非“死板”的工程师逻辑,而是将用户的反馈摆在了最高的优先级位置,研发团队的计划排在第二位。

而关于小鹏的语音系统接下来的升级方向?主要涉及以下三点(具体升级时间并未公布)。

第一,免唤醒。即不用每次使用语音系统都需要叫一次“小P”,提升用户与车机系统对话的持续性。

第二,声源定位。面对车内不同位置乘客都在说话,语音系统很难识别信息的问题,其实理想等一些品牌已经给出了“简单粗暴”的解决办法,就是主要听一个人的,弱化其它座位的收声音量,降低大约20dB左右。

而小鹏希望这项技术更人性化一些,通过语音系统本身来辨别复杂的信息,不过这种“一劳永逸”的方式对于语音分析的要求较高,不会出现在近几个版本的OTA升级中。

第三,更强大的智能AI。现阶段手机、车机等民用领域的智能化,尚不具备自主学习的能力,全部都是通过系统版本迭代,后台带来的监管式学习,跟学生需要老师监督是一个道理。这方面将在小鹏语音系统之后的升级中,以潜移默化、细水长流的形式呈现,让机器越来越理解你说的话。

[·自研语音代表了自建“生态”的决心·]

车载语音作为车机系统的一部分,本身是可以由供应商提供、单独“嵌入”的,时下最常见的如科大讯飞、百度、以及天猫精灵(阿里)等,都有非常成熟的解决方案。而小鹏则反其道而行之,选择了付出更多人力物力的自主研发路线,原因简单概括其实就是“生态”二字。

具体来说,小鹏的生态是自身品牌封闭式的,系统软件方面没有任何的“雇佣兵”,一律都是“御林军”。这种做法劣势就是上一段所说的成本问题,好处是语音系统与整车其它控制单元能够精诚合作。

拿语音系统来说,小鹏G3(参数|图片)最新版本OTA升级之后,用户发布的语音指令已涉及导航、空调、娱乐、车窗乃至胎压状态(1.7版本新增)等多项功能,语音系统打通了G3车型最初预留的所有控制单元,即已经将语音可控制的硬件开发到了这款车的极致。硬件层面,接下来就是进一步的优化,更多的语音实现就要在P7(参数|图片)乃至未来的新车中落地了。

[·自建生态以骁龙820A为轴心·]

其实谈到小鹏的生态,被推到台前的是X Pilot自动驾驶辅助系统,在推出3.0版本之后,更好的将特斯拉擅长的摄像头和蔚来主攻的毫米波雷达结合在了一起,常被不少科技控们提及。这方面的基础来自英伟达,小鹏P7正是首款搭载 NVIDIA DRIVETM AGX Xavier平台的量产车。

而小鹏车机系统同样存在一个来自供应商的轴心,那就是高通骁龙820A芯片。骁龙820这个代号想来大家都不陌生,在此前的三星S7、小米5等手机中就有过硬中,而加上了A(代表AUTO)这个后缀之后,从消费电子级别上升到了应用场景更为严格的车规级。这其实就是开篇车机系统“手机化”,或者说沿着手机的路前行的一个佐证。

车机芯片的作用其实与PC以及手机求同存异,承担着整个系统“大脑”的工作,正所谓兵怂怂一个,将怂怂一窝,作为“将”的芯片作用不言而喻,包括语音在内的整个车机软件系统,思考的维度(算法)与处理的速度(算力),全看芯片水平。骁龙820A作为现阶段车规级芯片中的佼佼者,其作用由此可见一斑。

[·本地靠骁龙820A 而未来还得看云端·]

接着回到本文的主题小鹏语音系统,相当于14nm封装工艺64位4核CPU的骁龙820A加持,让语音识别能力,以及响应与处理的速度,均来到了时下智能汽车范畴中的领先水平,成为了小鹏语音系统出色表现的最大助力。

而芯片的助力更多的还是体现在本地,通过提升算力即可达到不错的效果,而正如赵工连线时所说:未来的语音系统必然会是本地与云端相辅相成的。

举个直观的例子,人与人之间沟通时,工作量最大的并非是“嘴”,而是一直在听的“耳朵”,更进一步的人机交互,机器也要具备听觉不间断的能力。这个实际场景产生的大量数据单靠芯片远远不够,且协助机器学习的本地存储也会成为瓶颈,所以必须要借助云的计算与存储能力。(搜狐汽车)

话题:
No Tag