AIIA 2019人工智能开发大会丨这场论坛或将开启智能语音新时代_新闻中心

AIIA 2019人工智能开发大会丨这场论坛或将开启智能语音新时代

2019年11月08日先锋音讯官网

2019年11月1日下午,一场以“听世界之音,道智慧之义”为主题的智能语音语义论坛在杭州未来科技城学术交流中心成功举办。中国信息通信研究院云计算与大数据研究所智能语音项目负责人李荪主持本次论坛。

容联人工智能技术伙伴,华中科技大学“认知计算与智能信息处理试验室”主任魏巍,北京得意音通技术有限公司董事长、清华大学人工智能研究院听觉智能研究中心主任郑方,苏州思必驰信息科技有限公司副总裁、北京研发院院长初敏,竹间智能科技(上海)有限公司产品咨询高级顾问朱从坤,阿里巴巴集团达摩院机器智能语音实验室研究员付强,中国移动智慧家庭运营中心智慧互联产品部高级产品经理刘辉,中国信息通信研究院云计算与大数据研究所智能语音项目负责人李荪,南京新一代人工智能研究院副总经理董晓飞,以及其他智能语音语义业内知名学者、行业顶级技术专家出席本次论坛,聚焦智能语音语义,以主题演讲和圆桌论坛的方式,现场分享交流语音语义技术应用现状、未来趋势和生态建设。
容联人工智能技术伙伴,华中科技大学“认知计算与智能信息处理试验室”主任魏巍首先向大家分享了在情感对话方面的一些科研成果以及在产学研合作方面与容联云通讯公司产学研合作的一些项目成果。魏巍表示,当前智能对话仍存在一些挑战和问题:第一是需要对语义方面,从对话内容建模、场景建模以及上下文语义的建模;第二是一致性方面,机器在对话的过程中会有个性化。第三是回复质量,我们能够在情趣或者情感的强度上感知得比较好的时候,使对话能够进行下去。另外,他还提到了情绪感知的智能对话,情绪感知其实在正常对于中是人和人交流的基础。相对应地,魏巍在产学研方面跟包括容联云在内的很多企业合作,在知识图谱、情感计算、知识挖掘、知识表达、自然语言处理方面有着深入的合作,并转化成一些科研的,软件著作权以及论文等方面的研究。
北京得意音通技术有限责任公司董事长清华大学人工智能研究院听觉智能研究中心主任郑方则向在场嘉宾首次阐释了语音合成类攻击与声纹识别之间“矛”与“盾”的关系。语音合成在带来便利和趣味的同时,其实也给我们构成了一些威胁,不光是隐私的泄露,还有安全的威胁。郑方认为针对声纹系统的攻击主要有四种,一种是声音模仿,另外三种都属于机器攻击,包括语音合成、声音转换和录音重放。语音合成攻击渐渐为大众所熟知,但防御起来却并不是最困难的。他现场通过原始音和合成音的频谱图片来展示了两者的不同,并总结了检测合成语音“非自然属性”的几种不同策略。郑方还预测了未来防语音攻击系统新的方向:即将合成语音检测系统与目前已比较成熟的说话人确认(注:即声纹识别)系统联合在一起,有“串联”、“并联”和“融合”三种“联合方法。
苏州思必驰信息科技有限公司副总裁、北京研发院院长初敏谈了怎么样真正把技术落地好。“其实就是AI的技术落地不是一锤子买卖,不是做一个东西放在哪就特别好用,其实是持续的学习和优化的过程。”初敏说道。初敏认为整个智能语音的交互会对企业带来很多的创新机遇,典型的场景其实是可以看成两个。一个是目前的人力密集型的服务,特别明显的就是呼叫中心,以及企业后期的运营,包括现在的外呼。
随后,竹间智能科技有限公司产品咨询高级顾问朱从坤带领大家深入学习了自然语音理解与情感智能方向的技术和应用。竹间自2015年成立以来一直在做自然语言理解,包括情感计算、对话机器人、文本分析方面的研究。朱从坤认为目前智能语音使用的是规则和关键字的技术,并没有使用自然语言理解。而人工智能时代对这一块提出了更高的要求,首先它要理解人类的语言,同时要有学习能力,识别意图,帮助客户和公司完成更多的业务。接着朱从坤向大家介绍了竹间打造的机器人工厂,目前已经能够做到在金融、保险领域,零启动,无训练数据准备率能达到80%,三千多个跨领域的意图准备率达到95%,ASR+多轮交互实际应用准备率达到93.9%。
阿里巴巴集团达摩院机器智能语音实验室研究员付强发表题为《全栈语音AI驱动芯片平台》的主题演讲,与大家分享阿里语音AI以及芯片平台的技术和应用。付强提到阿里达摩院语音实验室的语音AI的技术架构,产品形态包含从车到电视、手机等等机器人的形态。在达摩院体系下,平头哥针对AIoT时代小批量、定制化提出的原型可以长出很多的芯片,也是一个开放授权的芯片平台,目的是开发出一批定制化特色的芯片产品,所以这个平台本身不是要出一款芯片,而是可以长出很多芯片的一个开放平台。阿里语音AI与无剑SoC芯片平台的结合,将会更好地发挥软硬结合的优势。
中国移动智慧家庭运营中心智慧互联产品部高级产品经理刘辉向大家构画了智能语音交互在家庭场景的应用画面。刘辉表示5G的商用意味着AI的技术将得到更广泛的应用。对于AI来说,不仅要研究技术的本身,更要探索语音技术带来更多的场景化的应用。刘辉通过案例的分享向大家说明在智能交互家庭的场景里面,我们会看到大家的需求会更加地凸显出智能化。首先在家庭中人不再是单人的个体,可能是一家三代同居的共同诉求。中国移动智能语音交互平台应运而生,在今年3月正式商用。
中国信息通信研究院云计算与大数据研究所智能语音项目负责人李荪在论坛上做了中文语音合成4S评估测试结果解读。目前首轮中文语音合成评测有业内四家企业参与,分别是阿里、腾讯、思必驰和同盾科技,都已通过语音合成的水平测试并获得AIIA颁发的证书。李荪基于语音合成技术发展,详细介绍了《中文语音合成服务系统评估规范V1.0》,规范从技术特点和实际应用出发,关注于质量基准度、定制相似度和场景表现力。李荪从各个多个维度对首轮测试结果的数据整理进行了详细解读,深入浅出,同时简单说明了中文语音合成评估工作的下一步计划安排。她表示“人耳是检验声音最好的标准”,虽然语音合成技术目前已取得突破式进展,但是在评测中发现,还是存在一些问题有待改进,如合成音频在多音字、英文、符号和特殊日期等的识别合成准确性能力还是稍微弱一点,发音流畅度、节奏感、拟人化欠佳,无标点的断句稍稍不足等等问题,未来评测需要从更贴近场景化需求、建立标准化测试文本库等方向发展。
论坛的最后一个环节圆桌论坛由南京新一代人工智能研究院有限公司副总经理董晓飞主持,郑方、朱从坤、付强和刘辉共同探讨了未来智能语音语义面临的趋势和挑战。

本次论坛凝聚了智能语音大咖们的智慧结晶,有助于提升我国在声控领域智能语音技术与应用的水平,有助于抢占新一代智能语音控制技术的先机,并助力传统企业在新一轮技术革命中完成智能化升级。

上一篇：明星加入AI语音开发阵容 AI文娱碰撞再度升级下一篇：英特尔更新人工智能产品线新品性能达到竞品6倍