北京捷通华声科技股份有限公司 提供,语音导航,语音质检,语音识别,语音合成,语音控制,身份证识别,发票识别,ocr识别,手写识别,解决方案

北京捷通华声科技股份有限公司 提供,语音导航,语音质检,语音识别,语音合成,语音控制,身份证识别,发票识别,ocr识别,手写识别,解决方案

新闻资讯NEWS

北京捷通华声科技股份有限公司 提供,语音导航,语音质检,语音识别,语音合成,语音控制,身份证识别,发票识别,ocr识别,手写识别,解决方案

未来5年,人工智能产业格局定型?

 发布于:2017-05-27 20:33   浏览:

随着越来越多的机器人产品走进家庭, 人工智能领域也不再是人们心中太过遥远的事物,人们对智能产品的要求也随之提升,作为实现人工智能与用户场景交互功能服务的关键因素,语音识别、人脸识别的技术发展水平尤为重要。

千家智客有幸邀请捷通华声董事长张连毅先生,和大家探讨分享关于智能家居、人工智能产业发展趋势和未来语音交互技术方向。

智能终端交互应用:家电、车载、机器人三大场景

与机器进行交流,让机器明白用户在说什么,这是人们长期以来梦寐以求的事情,有人曾把语音识别形象得比做为“机器的听觉系统”。简单来说,语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。主要包括特征提取技术、模式匹配准则及模型训练技术等方面。

捷通华声董事长张连毅

(北京捷通华声科技股份有限公司董事长、清华企业家协会成员、清华校友人工智能联盟秘书长、北京软件行业协会理事。1989年毕业于清华大学。2000年与国内多位顶尖人工智能技术专家联合创建北京捷通华声科技股份有限公司,致力于人工智能产业发展。)

作为在人工智能行业有着多年技术研发和创业经验的“清华大咖”,张连毅认为,人工智能在智能终端交互方面的应用将聚焦在家电、车载和机器人三个场景中。在对应的产品设计方向上注重两点:

一是落地用户实际使用习惯,打造出具有创新性、用户体验良好的产品;

二是注重家电、芯片厂商的合作,在帮助他们将远场语音识别、语义理解、语音合成、人脸识别等人工智能技术与产品充分结合的同时,保证产品高性价比,从而实现双赢。

操作太繁琐,识别环境受限制等,语音识别交互产品目前的用户口碑仍是有许多的不足之处,要如何实现落地用户使用习惯?张连毅表示,比如在电视的应用上,考虑到目前中国用户在和电视语音交互时,会有个适应过程,不会突然抛开手持遥控器,于是推出了全球第一款远场语音遥控器。用户既可以手持遥控器操作,也可以将遥控器放在远处,背靠沙发,进行远距离语音遥控,从而实现观看全程的语音交互体验。

他强调,技术要为产品服务,产品要为用户体验服务,而不是凌驾于用户体验之上,强迫用户接受并使用新技术,人工智能也不例外。

语音交互解决方案:全链条产品服务

人与智能产品交互的方面,语音识别、语义理解等技术一直寻求更多的突破,以满足用户对准确性,智能化,方便性的需求。

张连毅表示,想要实现直对着电视、空调、车载设备说话就能进行交互控制,在语音识别上会面临一个大问题:在实际环境下,类似场景的对话距离都在一两米以上,周围环境噪音会对识别率有着严重影响。于是,针对远距离语音交互推出的麦克风阵列技术成了解决问题的关键。

人有灵敏的双耳,但机器没有。而灵云麦克风阵列就好比给机器装上了“灵动双耳”,可以让电视、空调等智能设备清晰听到用户的声音,另外通过回声消除技术,让设备即便在播放声音时,也可随意打断进行语音交互,极大地改善了人机交互体验;线性、环形的麦克风阵列布局,给了设备“双耳”定位声源的功能,达到准确操作的目的。

麦克风阵列技术作为物联网时代语音交互的入口,和语音唤醒技术一样,是人机交互的第一步。结合灵云麦克风阵列技术、语音唤醒、语音识别、语义理解、语音合成等人工智能技术,已经形成了全链条的语音交互产品,可以帮助芯片厂家、家电厂家、汽车及配件厂家持续优化产品用户体验。

智能音箱将成为智能家居新交互入口?

最近谷歌、微软都推出了智能语音产品来抢占智能家居入口,张连毅认为,不论智能家居的中控是机器人、是音箱,还是其他设备,语音交互始终是会是第一入口,也是未来的用户趋势。设备是载体,核心是语音交互的能力。

但他也表示,目前这些产品要想实现真正的“人机交互”,还要取决于是否符合中国人的使用习惯。在中国,语音音箱类的产品,与机器人的对话等等,大多是抱着新奇的态度,都还没有成为国人的主流使用习惯。

他认为真正的“人机交互”是让人与设备沟通像人与人交流一样简单自然。除了更准确的语音识别技术,更自然的语音合成技术,设备还需拥有更接近人思维方式的强大语义理解能力。捷通华声研发的的语音识别技术准确率已经超过97%,语音合成也已经拥有几十种音色,并且可以模拟人类的情绪,语义理解也能实现复杂的多轮对话,解决了大部分场景下人机远距离交流的问题。

不过现有技术仍面临很多客观现实问题的考验,行业也要理性看待,不过分高估现有技术,距离实现完全自由的“人机交互”还任重道远。

平台如何真正开放:全技术整合+新服务模式

目前许多平台推出的智能生态圈仍处在互不相通的封闭环境,如何保证平台的开放性和稳定性和联通性,成为行业的一大关注点。早在2011年,捷通华声推出国内最大最全的人工智能开放平台--灵云(aicloud.com)。在2015年,更推出灵云全智能能力平台,全面进军企业级市场,致力于让每一家企业都拥有人工智能技术。

张连毅表示,灵云平台的核心竞争力,有三大方面,第一是开放性。在于不论是哪个生态圈,都会全面开放,为其提供全方位的AI技术和支持。灵云各项AI能力提供离线、在线两种服务模式,也提供公有云与私有云两种服务模式让用户选择,平台目标帮助用户使用AI能力,即不想“抢夺”最终用户,也不会去“抢夺”数据,仅这两点就保证了灵云平台的全面开放,消除了很多客户的“戒备”心理。

第二是技术全面整合。区别于其他单一技术开放的平台,灵云平台真正意义上做到了各项AI技术的整合与开放。在灵云平台,开发者可以下载使用灵云语音交互、语义理解、人脸识别、OCR识别等多种SDK,也可获取像灵云种子这样将语音识别、语义理解、语音合成技术整合在一起的融合型SDK,简单地说灵云“几乎什么都有”,能够满足大部分用户对多种AI能力的需求。

第三是强大的稳定性。灵云平台采用了先进的多节点分布式服务部署,并应用了国内领先的自动化运维技术,支持服务的高并发请求和高速度响应,确保了平台的稳定性。

人工智能行业发展:未来5年定格局

目前全球资本市场迎来“寒冬”,各大领域的巨头企业纷纷找寻新型模式进行市场拓展和生存空间,To-B还是To-C,哪个商业模式是人工智能企业目前最倚重的?

据张连毅透露,捷通华声的商业模式以B端为主,C端为辅,有面向普通大众提供图像、语音云服务、灵云输入法、维汉友谊桥这样的C端产品,目前更侧重在B端,尤其是最近火热的智能家居、智能家电、智能车载等领域,已经有了近百家合作客户。未来将致力与更多市场资源广泛或专注深耕某一领域,拥有较深行业资源,或拥有一线城市、省会级城市地域资源的伙伴建立战略合作,共同分享人工智能产业机遇。

张连毅表示,从2011年到2016年上半年可以说是中国人工智能行业启蒙的5年,现阶段很多客户都是好奇、蹭热度的姿态而来,单一领域的需求很分散,还没有形成刚需,人工智能产业发展比较稚嫩。而接下来的3-5年,人工智能产业格局就会逐渐形成,甚至还或许诞生类似BAT一样的巨头。

人工智能是一个以技术驱动发展的行业,也经历了最初在中国的生根发芽、狂风暴雨到现在的蓬勃生机。人工智能企业创业很困难,捷通华声之所以能够坚持下来,除了在技术研发有着核心优势之外,也是因为坚信人工智能将为大众创造出一番美好新天地。

【关于捷通华声】

北京捷通华声科技股份有限公司成立于2000年,是一家专注于智能语音、智能图像、生物特征识别、智能语义等全方位人工智能技术研究与应用,致力于让机器“能说会听、能写会看、能辨音、会认人、能思考、会判断”的高新技术企业。

2011年捷通华声推出了国内外第一个全方位人工智能开放平台—灵云(AIcloud.com)。2013年,清华产业基金投资捷通华声,共同创建“清华灵云人工智能研究中心”,致力于实现“灵云科技源自清华服务全球”的战略发展目标。2016年登陆新三板,成为国内人工智能板块领军企业。