智能音箱方案开发
智能音箱是现代科技产物,是基于语音识别技术的音箱的衍生物。智能音箱在家庭用途十分广泛,涉及生活许多方面,可以说智能音箱已经进入日常生活。智能音箱有多种功能,基本满足了人们日常生活服务。目前的家庭智能音箱可以实现设置闹钟,点播音乐等功能,链接网络后可实现了解未来天气、上网购物、打电话等功能,另外可以连接第三方软件,也可实现对家用智能电器的控制,而智能服务仅需说一句话即可实现叫外卖、叫服务、打车、订餐等多种功能。对于不同年龄段的人,智能音箱也可以通过设置不同模式来实现较为人性化的回答,例如,智能音箱中儿童模式下语气会更加亲切,让儿童更有亲切感。
一、智能音箱的简介
自2014年亚马逊推出首款智能音箱Echo后,智能音箱如雨后春笋般涌现。在国外,亚马逊、谷歌、微软以及苹果先后发布了自家的智能音箱;在国内,百度、阿里、腾讯以及小米等企业纷纷涉足此领域并相继发布自己的产品。不同音箱厂商的产品同质化明显,但又有所侧重。京东、阿里巴巴致力于完善商业生态布局;小米致力于打造智能家居产业链;喜马拉雅致力于音频内容、质量的提高。然而,在用户使用体验和互动娱乐方面还有待提高。智能音箱随着技术的发展,不论是在商业生态链方面,还是在智能家居产业链方面,或者在有声资源方面,都有着良好的发展前景。
二、智能音箱方案的主要技术
智能音箱的流程为语音唤醒,之后内部处理,最后找到对应内容输出,其中主要包括前端信号处理、语音唤醒、语音交互等技术。
1、前端信号处理
前端信号处理是在唤醒前进行准备工作,音箱工作时,麦列处于拾音状态,当接收到声音时,对声音进行处理,包括语音检测、降噪、声源定位和波束形成四个方面。
语音检测用来检测出音频信号语音段的起始位置,并过滤不相干的非语音信号,达到分离语音段和非语音段信号的目的。降噪即减少噪音对智能音箱识别的影响,包含声学回声消除和去混响。实际环境中存在各种各样的噪声,采取降噪来降低噪声干扰,提高信噪比。由于室内语音会被墙壁等多次反射,采集到的声音较混杂,采用去混响来处理。声源定位是根据麦列,确定使用者的位置。可以用来展示方位灯,增强交互效果,也可作为波束形成的前导任务,确定空间滤波参数。波束形成通过利用空间滤波,将多路信号整合为一路,达到增强原始语音信号和抑制旁路信号的目的。
2、语音唤醒
语音唤醒又称关键词检测,即在连续不断的语音中将目标关键词检测出来,一般目标关键词的个数较少。语音唤醒性能取决于唤醒率和误唤醒率。唤醒率指将连续语流中存在的唤醒词检测出来的概率。语音唤醒常用的实现方式是dnn+hmm(深度神经网络+隐马尔科夫模型)和lstm+ctc(长短时记忆网络+全连接时序分类模型)。目前开源的唤醒方案可提供SDK,实现唤醒功能一般分为在线和离线版本。国内主要以科大讯飞为代表。网上也有多种开源的小型语音识别引擎,可实现单独的语音唤醒功能,性能参差不齐。
3、语音交互
语音交互包括语音识别、自然语言理解、对话管理、自然语言生成和语音合成。
语音识别技术也称为自动语音识别,可将语音信息转为文字信息。用户发出的指令为语音,然而语音并不能直接拿来分析,需要转化为文字。随着深度神经网络的应用、大数据的使用和云计算的普及,语音技术已经进入人们的日常生活,如科大讯飞、阿里巴巴的AliGenie、喜马拉雅的小雅等。
自然语言理解的目的是将自然语言转化为计算机易处理的形式,即接收到指令后,识别出用户命令的所属领域,之后再相应领域识别用户的意图,最后进行实体抽取,确定意图的参数。目前,自然语言处理使用的NPL算法是基于机器学习的,拥有各类语言处理的数据集,其中包括中文分词、词性标注、实体识别、句法分析以及自动文本分类等功能。
对话管理对连续对话的交互极为重要,一般的解决办法是将上轮对话解析的参数作为全局变量,带入到下一轮对话,根据当轮对话和一定条件来判断是否保持在上一轮的领域,或是清空上下文。
自然语言生成是使计算机具有人一样的表达和写作的功能,即能根据一些关键信息及其在机器内部的表达形式,经过一个规划过程,自动生成一段高质量的自然语言文本。语音合成又叫文语转换,能使智能音箱像人一样朗读任意给定的文本。主要合成方法有参数合成和拼接合成,其中参数合成计算量小,部署灵活,但自然度较差。拼接合成接近真人发音,存储和计算资源高,一般只能在线合成。
4、其他关键技术
除上述关键技术,还有相对成熟但没有被广泛应用于智能音箱的技术,如声纹识别、人脸检测和人脸识别。声纹识别用于付款,根据语音波形反应人的声音和行为特征的语音参数。人脸识别与声纹识别类似,但还可用来确认用户身份。人脸检测是建立在音箱配置有摄像头的基础上,确定用户位置,带来更好的交互设计以及辅助声源定位。
三、智能音箱的语音识别技术
目前大多数互联网企业都有推出自己的智能音箱,这使得智能音箱市场越来越大,竞争越来越激烈。现在的智能音箱在外观上并无太大区别,所以用户更加注重的是智能音箱本身性能。智能音箱的性能主要从他的语言交互能力,反应速度,准确度来体现。
为了实现智能音箱的多种功能,智能往往需要多种技术。当用户发出的一段语言信号时,智能音箱首先要去接受该信号,这里运用了麦克风列阵技术,一般的音箱内置7~8个麦克风,这使得智能音箱能够从多个方向正确的接收语音信号以及消除回音和杂音带来的影响,得到语音信号后需要对信号加工处理使机器“理解”自然语言,则用到自然语言处理和语言识别技术。最后智能音箱所计算出的结果需要重新合成语音信号,这用到了语音合成技术。在这众多技术中,最核心就是语音识别技术。
智能音箱中语音识别技术十分复杂,它综合了心理学,语言学,统计学等多门学科,若要研究语音识别技术,需要从语音识别技术中各个重要步骤入手,这里主要研究其预处理、特征提取、训练识别3部分。
(1)预处理
一段语音信号往往伴随着环境杂音,这杂音对语音识别影响巨大。因此首先要去除这些环境杂音。一段语音信号的频率基本稳定在一个区间内,通过抗混叠滤波将信号频谱上的杂音区段与目标语音信号区别来并获得目标信号,同时完成模拟信号向数字信号的转变。
另外,由于语音信号中的目标信号功率小,而杂音的功率大,杂音占了输入的大部分区域。由此,对目标信号进行预加重处理来提高目标信号的能量。根本上说是提高振幅,方便区分杂音。
端点检测也是预处理中重要的一部分。环境杂音任何时候都存在,而语音信号只存在一段,端点检测旨在确定语音信号的起始位置,避免非语音时段噪音混入。短时平均幅度与短时平均过零率是两种端点检测常用方法。
另外,目前语音识别软件分为两种模式,一种是手动截取语音,例如苹果手机中的Siri,用户需按住特定按键完成语音信号的采集。另一种是自动截取语音,市场大多数智能音箱都采取这种模式,但精度相对较差,一般都是用户输入特定的语音信号后才开始语音采集,例如使用小爱同学时,命令格式是“小爱同学+你提出的问题”总体上讲,预处理部分的目的是消除杂音,为后面计算机理解自然语言奠定基础。
(2)特征提取
采集到语音信号后做的第一个步骤就是特征提取,它将一段语音信号分为多个区段,并将其中含有实际意义的特征参数提取出来,并加以统计。这一段特征提取就可以代表这一段信号了,因为舍去不必要的区段,特征提取也是一种数据压缩,这一定程度上可以简化之后的计算。特征提取是建立在隐马尔科夫模型上,该模型中含有不可见的未知参数,特征提取中这些未知参数指信号中所含有的语义,但语义很大影响语音信号,所以通过语音信号的变化逆向推测不可见的语义并非不可能。
(3)训练及识别
目前智能音箱中语音识别精度高,但这是依靠大量数据与训练才完成的。训练识别网络相当于训练计算机,而每一位用户都相当于一位训练师,大量的训练和统计后计算会得出令用户普遍满意的答案。这样,计算机无需真正理解自然语言也可以完成人与机器之间的正常交互。
深度学习是训练识别网络中重要的一部分,它是人工智能自我学习的关键。深度学习一大特点就是多层次运算,多层次处理信息。深度学习中每一层所得到的结果将作为下一层的输入使用,这样就达到了“深度”的效果。但在实际运用中,这还需要对深度学习的层数进行把控,如果层数不足,人工智能自我学习效果会差,但层数过多会导致计算繁琐并且效率低下。深度学习在语音识别中主要是学习语音信号的特征,之后需要与训练识别网络的数据比较最后得出计算结果。
四、语音识别技术的不足与改进
1、现阶段语音识别技术的缺陷
虽然语音识别技术已广泛应用,但其还存在许多缺陷,主要为以下几点。
1)自然语言的不确定性。自然语言由语义,语境等组成。因此自然语言有很大的不确定性。现有的人工智能基本是自上而下的人工智能,也就是说程序员先制定好计算机理解语言的规则才理解自然语言。一旦程序员编程出现缺陷,那会导致计算机对自然语言的误解。虽然将所有语法规则写入程序中也许能让计算机理解语言但语法规则众多,将这些规则全部写入程序中几乎不可能实现。
另外,自然语言信息量大,在不同情景下,一个词语可能成褒义,可能是贬义,并且上下句对一个句子实际意义影响巨大,例如“帮忙下。”这句话省略了主语和宾语。但如果有前后句做铺垫,那这句话对人并不难理解。但是应用语音识别,那么机器将不能理解特殊句子,自然语言的不确定性很大阻碍了语音识别的进步。
2)环境干扰。公共场合中的环境杂音和噪音对识别影响巨大,在这种环境中计算器很难接受到合适的语音信号,这很大地限制了语音识别的使用范围。
3)读音不标准问题。现在的词汇数量逐渐增加,读音相似是正常的事,但机器很难区别这种读音。特别是一些字词会连带这上个字词读音,如果语速果快,计算机也很难识别。
2、语音识别技术的改进方向
综上所述,本文认为语音识别的重要改进方向如下。
1)针对专一领域。自然语言十分复杂,因此想要建立全面的语音识别是十分困难,但通过研究发现,某些词汇在特定的领域出现频率十分之高,而且相对固定。所以通过建立某个专一领域建立语音识别系统是目前实用性和价值都相对较高的方法,最后将各个语音识别系统结合在一起,以建立相对完备的系统。
2)动态语义分析。目前的语音识别仅仅特定的一句话进行分析,而无法联系用户前后之间的问题进行动态分析。未来的语音识别能在与用户问答过程中不同语境,实现新的分析,并预测语音信号中所含的语义。这样的改进可以使计算机从语言的接受方真正成为语言使用方,使人机之间的交流更加的自然。
五、智能音箱的发展方向
迄今,市场上的智能音箱种类丰富,技术也日趋成熟,然而还面临着一些制约发展的因素,如尽管智能音箱在智能家居行业不断显现其用武之地,但通过智能音箱只能控制拥有授权的智能音箱品牌,极大限制了消费者的购买意愿。此外,智能音箱提供的技能因未得到很好的开发或接入的第三方服务平台过少,还远远不能满足人们的实际需求。
未来,随着物联网的发展,智能音箱将在硬件、软件以及平台等方面得到全面发展。硬件上致力于打造智能家居,形成一个产业链;软件上挖掘各种个性化需求,将产品的功能扩充,从娱乐到购物、家居、社交等各个方面覆盖人们的生活;各种第三方服务等接入智能音箱,把服务嫁接到生活的不同场景,满足人们的日常生活需求。此外,在技术上还应改善音质、提高语音识别的准确率,优化人机交互的用户体验,打造完整的产业链。
总结
现在的语言识别技术尚未完全,但以语音识别技术为核心的智能音箱是足够满足人们的需求的。各项技术的不断完善和人们对智能产品日益增长的需求为语音识别技术的发展指明了方向,由于市场扩大,各个企业势必会加快对于语音识别的竞争,从而加快语音识别技术的发展。在迭代更新中,智能音箱会更加注重用户的体验,成为家庭生活中必不可少的重要设备。
目前,智能音箱还处于发展阶段,随着技术的发展,将会打造商业生态链、智能家居生态链以及丰富的有声资源,提出更多个性化服务。智能音箱将渗入到人们生活的各方各面,给生活带来更多的便捷和乐趣。
以上就是我们深圳市组创微电子有限公司为您介绍的智能音箱方案详情。如果您有语音音箱的电子功能开发需求,可以放心交给我们,我们有丰富的电子产品定制开发经验,可以尽快评估开发周期与IC价格,也可以核算PCBA报价。我们是多家国内外芯片代理商,有MCU、语音IC、蓝牙IC与模块、wifi模块。我们的开发能力涵盖了PCB设计、单片机开发、软件定制开发、APP定制开发、微信公众号开发等软硬件设计。还可以承接智能电子产品研发、家用电器方案设计、美容仪器开发、物联网应用开发、智能家居方案设计、TWS方案开发、蓝牙音频开发、儿童玩具方案开发、电子教育产品研发。
- 返回顶部