随着智能时代的到来,语音已经成为人机交互的主要途径之一,手机语音助手、车载语音助手、智能音箱、语音搜索……在日常生活中语音交互无所不在。而语音交互对于智能汽车更是有着独特的优势,随着智能化的发展,车机功能越来越多,实体按键越来越少,交互逻辑更加复杂,找一个功能可能要通过多级菜单,不仅给用户带来很多不便,甚至还会严重威胁驾驶安全,而通过语音交互可以帮助驾驶者降低手动操作频率,有效提升驾驶安全性。目前语音交互已经成为汽车座舱智能化的标志性代表,与车内多种应用相结合,成为座舱生态构建的核心功能。
那么语音交互到底是怎么实现的呢?
假设我们对语音助手说“播放陈奕迅的《孤勇者》”。语音助手会说“好的,马上为你播放陈奕迅的《孤勇者》”,并且开始播放音乐。在这个过程中,语音助手首先把听到的声音转化成文字,然后再理解文字所表达的内容,最后做出相应策略,并把相应策略转化成语音。因此语音交互主要分为三个模块:
语音识别:简称ASR,是将声音转化成文字的过程,相当于耳朵。
自然语言处理:简称NLP,是理解和处理文本的过程,相当于大脑。
语音合成:简称TTS,是把文本转化成语音的过程,相当于嘴巴。
长城汽车以“自研+合作”的研发模式,围绕ASR、NLP、TTS三个关键环节,开展云端和车端的全链路语音算法研发,搭建高度灵活的语音交互技术平台,构建行业突出的语音能力,让语音识别更精准、语境分析更合理、语义理解更自然。同时积极引入业界领先的专业伙伴深度共创语音生态,实现多服务融合,在多模交互、情感化沟通和场景化交互等方面持续突破。此外,近日长城汽车官宣正式成为百度文心一言首批先行体验官。将通过百度Apollo融合文心一言的全面能力,携手打造基于智能汽车场景的大模型人工智能交互,开启人工智能时代的汽车全新体验。
近日最新上市的哈弗二代大狗可谓是长城汽车语音能力的集大成者,搭载了长城汽车全新一代Coffee OS智能座舱系统,具备比肩新势力旗舰车型的语音交互能力,超极速、更便捷,让对话0焦虑、更自然。
极致响应:行业第一梯队的语音交互速度,唤醒速度只有250ms,唤醒率成功率高达95%; 车控技能毫秒级响应(900ms),其他在线技能响应速度1300ms。
可见即可说:可见即可说、支持分词、泛化,能够灵活使用,简单的说就是只需说出屏幕的文字,就能够实现相关功能的控制,看到什么说什么,简单易用。全新一代Coffee OS的语音助手,能够支持940余条语音指令,覆盖车控车设、系统设置、导航、多媒体等各种模块。
3. 一句多意图:指的是一句话可以发出多个连续指令,最多可以支持十个指令。例如可以说:“你好小哈,关闭天窗、关闭左侧车窗、打开空调、打开座椅加热、打开座椅按摩……“
4. 口语化指令:不局限于传统的固定指令,能够识别丰富的指令内容,即使是口语化的表达也能实现语音控制。例如说“我好热“,语音助手接受指令后,会主动打开空调、降低空调温度等。
5. 多人拒识:当主驾/副驾唤醒语音助手后,其他乘客在车上闲聊、打电话甚至唱歌,都不会影响语音交互,语音助手只识别唤醒者的声音和指令。
6. 信息查询:支持二十余种信源查询,包括查询天气、酒店、餐厅,股票,百科,火车票机票,垃圾分类等。
7. 声音复刻:用户在手机APP通过少量的录音,训练得到音色和发音风格与录音非常相似的声音模型,可以直接应用到车机上进行语音播报。例如可以让孩子通过手机录入声音,然后将其应用到车机,这样孩子的声音就可以全天候陪伴
另外长城汽车语音助手更是富有情感的陪聊专家,可以跟乘客闲聊、讲故事、说笑话等,甚至还可以跟一起玩成语接龙、飞花令等游戏。