科大讯飞股份有限公司副总裁、上海科大讯飞信息科技有限公司总裁程甦演讲
来源: 作者: 发布时间:2017-12-01

大家下午好,今天非常高兴有机会跟各位领导汇报一下人工智能最新技术的发展和应用,我来自科大讯飞,大家听到科大讯飞就像刚才刘会长介绍的,我们在智能语音方面是全球领先的,首先大家一起来看一个短片,看看智能语音能够为我们带来哪些有趣的事情。
首先说一下,这里面所有大咖的语音都是签有协议的,第二点我想放这段视频的原因是这样的,实际上现在智能语音技术达到什么水平,大概拿20分钟到30分钟人的语音,我们进行训练,可以让这个人说任何的话,用任何语言来说话,大家可以想象一下,晚上的时候有大咖给小孩读书,或者以父母的声音给小孩读书,甚至大家都会用到高德导航用林志玲和郭德纲的声音都是讯飞做的,你也可以用小孩的声音做,这都是可以通过软件实现的。
刚才孙主任对人工智能的发展有概况性的描述,很多观点我都非常同意,接下来我想从人工智能的技术和应用方面,做一些更加细节的阐述。首先看一下人工智能技术最新的进展。
我们先看一下产业的背景,每次人机交互改变都会大幅度改变产业和人的生活,这里面会不断的产生一些新的公司,现在我们正处在移动互联网向物联网互联时代转变的过程当中,在物联网这个时代,多数我们的交互,都是没有办法触摸到的。因此下一个人机交互的主要方式是以语音为主,触摸为辅的。
我们今天在说各种各样的人工智能的应用和算法,我们说的都是弱人工智能,什么叫弱人工智能?就是用机器学习,大数据的方法,使得这个机器在特定目标上表现的像,而强人工智能是模拟人脑的计算方式去感知的方式来做一些事情。现在所有的人工智能都是弱人工智能,其原因是人对人脑是怎么运作的知道的非常少,现在也有类脑研究也在运行,比如说有北方实验中心,张江实验室,讯飞也参与其中,我们希望通过类脑计算的研究,来获取人脑是怎么认知声音,编写在机器里获得很好的成果。
刚才几位都提到人工智能的三次浪潮,就不详细说了,人工智能的几次浪潮都是算法和计算能力的提升一次次得到创新。我们第三次浪潮也会随着这个算法和计算能力提升带来收益,只能获得这么多收益,使得最后也会落潮,但是现在包括第三次浪潮当中的深度学习,各种神经网络,CNN在语音和图像上的成功,已经能够给我们现实的生活带来很多东西。
人工智能我们看是分三个阶段,第一个是运算智能,就是下棋的时候输了以后,人早就不是机器的对了,第二阶段是感知智能,能听会说,能看会认,随着自然语言技术的提升,包括无人驾驶技术的提升,听说进步很快,已经与人类越来越接近,认知只能是能理解会思考,这个刚刚起步,未来会有很大的挑战,我们未来可以看到人工智能在这个层次上表现是什么。运算智能机器早超过我们了,感知智能要使机器能听会说。
智能语音交互技术主要分这么几个方面,一个是语音合成的技术,就相当于给机器装一个嘴巴,还有语音识别相当于机器的耳朵,还有自然语言理解,就是说理解完之后怎么去表达。分别看一下这些技术的进展。
首先是中文语音合成技术持续的在进步,这里想给大家看一下中文的语音合成技术一步一步是怎么走来的。这个是1995年当时获得国家科技二等奖的技术,大家可以听到跟人讲差别不大。讯飞当时是第一个把语音合成技术做成超过3.0,因为我们第一个超过3.0,我们成立第一个公司,就像刘主任说的,我们开始创业。现在看一下语音合成技术到什么程度,大家可以听到,现在中文的语音合成技术和播音员说的几乎是没有什么区别。这个是中文的情况,英文语音合成技术我们也在不断的突破,英文在国际大赛上,讯飞从2006年开始到现在12连冠,我们可以听到机器来读英文也有非常好的语调、情绪等等,也和真人读的没什么太大的区别。刚才是语音合成,接下来看一下语音识别的技术。讯飞的语音云是2010年上线的,上线的时候具体的数字准确率是60.2%,如果要是这个数字的话是不敢上线的,内部测试是超过80%才敢上线,一上线,应用的场景远远超过我们实验室测试的状况,一年的时间很快达到81.2%,现在在好的情况里面会达到98%、99%这样的数字。云识别技术这么快速的进步,也来自于移动互联网和云技术带来大量的数据。这个大数据实际上是人工智能前两次浪潮所不具备的,是这次浪潮发展这非快的基础。
刚才提到语音识别是在相对干净的场景下,我们看到语音识别在高噪场景下,车内的表现,在2015年可以达到86%、87%的准确率,业内85%是作为应用场景。现在讯飞是在高噪里面唯一一个进入应用的产品。讯飞的机器我们现在语意的字的准确率达到98%,普通人是不可能达到字的准确率,这样说话记下来的每个字都是准确的是不可能的,这个字只有50%上下,句子只有70%上下,这是在一个特定的领域里面像AlphaGo这样的机器真正的超过人类。
还有原厂的语音识别,这个在2016年语音识别讯飞是第一,大家可以看到这个数字,差错率是2.24%,实际上准确率是非常高的,接近100%。刚才是语音合成的语音识别,接下来看一下机器翻译的水平,实际上是有这样几个环节,一个是识别,语音翻译,第三个环节是合成出来的,在翻译大赛当中是第一,虽然讯飞是第一名,但是准确率是52%,当然这个大赛,翻译是开放场景,翻译的可能包含医学、生物学等等,说明在整个开放场景的情况下,翻译是达不到要求的,差距是非常远的。
大家经常在网上经常看到,我看到这个翻译不错,但是它主要大家可以留意一下,主要是针对日常生活,在这个子领域讯飞也是做的最好,讯飞在旅游和应用场景做到84%。刚才说的语音,讯飞在手写的阅卷方面也是全球领先的,就像孙主任说的,这实际上是教育行业里面工作的基础,我们现在中英文手写的识别率,自由写是97%,混合图文识别是92%,中英文自由写可以在文字方面做研究,否则图文写是指在理科方面。
根据谈到在感知智能方面的技术做到这方面,我主要是沿着讯飞来介绍。关于认知智能,各方面技术进展到什么程度?认知智能从能听会说,到能理解会思考。前段时间有本书叫《人类简史》,认为语言是产生认知的一个起因。原因是什么呢?首先来讲,在远古时期,语言可以更加精确的把周边环境的声音对生存有很大作用,另外可以反馈信息,它可以虚构很多的概念,让大量的陌生人进行合作。现在说的国家、货币和公司都是虚构的概念。现在这么多人已经形成的虚构概念,形成的目标在努力,实际上语言就是从智能的主要表现形式。讯飞的观点和输入观点也是不谋而合。我们正式启动了讯飞超脑的计划,研发基于人工智能神经网络感知和认知的超能引擎,使得讯飞超脑能听会说能理解会思考。
2016年知识图谱大赛,讯飞是第一名,这个就像我们平时在学校里做的阅读理解,给一个背景文章,给一个问题,比如说美国大选期间,特朗普炮轰,来填,讯飞获得第一名是66%,其他都是60几或者50几。2017年斯坦福组织的机器理解大赛,讯飞也是第一名,这时候讯飞准确率是77%,78%,这是中国本土机构首次获得这个赛事的第一,国内外主要做逻辑推理的最著名的研究机构都有参与这个大赛,现在这个准确度仍然没有达到可以使用的标准,实际上就是给你一段文字,这里面根据上下文填一个空,这对于普通人来讲非常容易,但是对于机器不容易。
刚才孙主任说的肺癌的检测,讯飞也是取得了第一。大家不断的你追不敢,不断有新的应用上去,就有新的结果。刚才是阅读理解,机器在逻辑推理方面更是处于初级阶段,这个大赛是用来取代测试的大赛,它题目是这样的,爸爸没法举起他的儿子因为很重,谁重,儿子,这些问题小孩都能答出来,但是人工智能只能达到60%,而且是最好的水平。人工智能在认知阅读理解,离人和实用还是相差非常远的。正是因为讯飞在过去一年,智能语音一系列的进步,在麻省理工评价的最聪明的机器人讯飞是第一。也说明讯飞做的是不错的,也鞭策我们在今后要努力。
总结一下人工智能各项技术发展的状况,就像刚才所说,运算智能早就超过人类了,在感知智能方面正在不断的接近人类,但是在认知智能方面离真正的实用还差的非常远。当AlphaGo可以下遍所有人类棋手以后,有说到机器是不是对人类产生威胁,至少从这个技术上来讲,还差的很远。包括刚才各项技术进展的速度来讲,人工智能进步比我们想象的要快的多。接下来看一下定级方面的应用,看人工智能产业方面的应用,主要是两个方面,一个是自然交互改变生活,第二个是智能学习赋能行业,这个和中小企业会议的主题非常契合。人工智能如何赋能中小企业,首先看智能学习赋能行业。现在人工智能在教育、学习、司法都有很不错的表现,实际上人工智能在行业里面有好的表现,有三个关键的因素,一方面是核心技术,核心技术实际上是代表了解决问题的一些核心能力,第二是行业专家,行业专家可以非常清晰的描述出问题以及解决训练的问题,还有非常关键的就是行业的大数据,大数据是人工智能的燃料。我们一再在说的神经网络的学习,对数据的消耗远远大于有史以来其他各种算法。
先看一下人工智能在教育里面的应用,讯飞实际上把人工智能用在教育里面,主要是个性化的教育,就是根据每个学生不同的特点,给他提供不同的题目,实际上道理就是说根据每个学生考试、测验、平时做练习也好,做更加结构化的分析,分析哪些知识点没掌握,哪些掌握了,掌握就不用做这样的题目了,没掌握就还要做这样的题目。现在讯飞覆盖了13000所学校,百强学校有68所,智慧学堂有3000所,希望通过个性化学习让孩子用更少的时间达到更好的学习效果。手写阅卷已经在用机器阅卷,这种考试改作业的过程当中是两个人在改,现在用机器替代另一个老师,一个机器一个老师差别大就再改回来,这实际上也节省了时间。
人工智能加司法,讯飞智慧庭审已经覆盖全国300多家法院,1000多家法庭,在今年9月份和最高检签订了这样的协议,做智能语音的平台和方案。就像刚才孙主任提人工智能在法律法条能达到87%,比原来提升10多个百分点,在罪名分类当中可以达到98%,这都是利用人工智能技术在司法行业取得比较好的进展。
人工智能加医疗,讯飞医疗机器人参加了全国临床职业医师考试,这个是断网的,不允许上网的,我们达到了456分,是通过了。在今年考的时候非常有信心,机器人在国家临床职业医师考试,在县、乡医院里面,给他们提供各种支持,是非常有帮助的,它不一定把病看出来说我用什么药,但是它可以提供不同的建议。对于一些设施医院,县、乡医院的医生非常有帮助。正是基于刚才说的医疗机器人对全面医学知识的掌握,讯飞在今年8月份与安徽成立首家智能医院,它给安徽所有的县、乡医院提供医疗质检,医生每天看很多片子,让机器再看一遍,做了一段时间,发现有相当的病例医生是误诊的,这个在今年年底会覆盖全省105个县。
人工智能+智慧城市是提升政府管理的一些效率。人工智能+文化娱乐,这个实际上就是刚才我们最初展示的短片。我们有用户个性化的解读分析,个性声音的选择,有特别好的语音合成的技术,真的是可以实现一千个人有一千个哈姆雷特。在这方面实际上我们已经和中信书院有一些合作。人工智能也能改变我们的生活,讯飞在不同的场景,移动场景、翻译场景、汽车场景、家庭场景做了一系列给用户带来价值的产品,使得用户能够更好的和这些设备更好的交互,能够提升我们生活的质量。
讯飞除了自己做的一些行业和产品以外,讯飞还向所有的合作伙伴和创业企业开放讯飞的语音云,现在讯飞的语音云有15亿的设备,每天有40亿次的交互,一共有46万的创业团队在过去一年有80%到90%的增长。以此为基础,科大讯飞将建设智能语音开放语音云平台。
我们也认为人工智能无处不在,事实上不同的公司和团体一个掌握技术,一个掌握应用,一个掌握数据,需要掌握技术应用混合政交的生态,只有分享,有大家共同的人工智能的技术生态和商业生态才能取得共鸣。
最后谈一下人工智能时代下中国的机会,实际上在人工智能发展过程当中,中国和美国遥遥领先欧洲和日本,差别在工程型和科学型美国更强,围绕客户和效率中国已经超过了美国。我们也特别期待和广大中小企业合作,共创中国人工智能美好的未来,谢谢大家!(根据现场录音资料整理,未经本人审查。)
上一篇:中国信息通信研究院主任工程师、中国人工智能产业发展联盟人工智能团队负责人、中国人工智能产业发展联盟总体组组长孙明俊演讲
下一篇:同济大学教授、上海市人工智能学会秘书长汪镭演讲