笔记:清华-谷歌人工智能研讨会(Tsinghua-Google AI Symposium)

6 月 28 日,在清华大学人工智能研究院成立仪式暨清华-谷歌 AI 学术研讨会开幕式上,清华大学副校长尤政宣布成立清华大学人工智能研究院。张钹院士担任新研究院的院长,与此同时,谷歌 AI 负责人 Jeff Dean 也成为了清华大学计算机学科顾问委员会委员。

毕业季申请了一下Tsinghua和google主办的研讨会(Tsinghua-Google AI Symposium),有幸被选上参会。在此,我就此时研讨会进行一下总结。会议共分为两天进行。会上聚集了多个学术界以及产业界的大牛,其中包括Bo Zhang,Jeff Dean,Fei Fei Li,Bill Freeman等大佬。他们分别在其专业领域进行了主题演讲(Keynote)。

Bo Zhang(张钹院士)

出任清华谷歌AI研究院院长的张钹是清华大学计算机系教授,中科院院士。

1958 年毕业于清华大学自动控制系,同年留校任教至今。他在 2011 年获汉堡大学授予的自然科学荣誉博士,并现任微软亚洲研究院技术顾问。

(上图)张钹院士进行名为“Towards A Real Artifical Intelligence”的主题报告

目前的AI并不能进行理解,它不是真正意义上的AI。例如,一个目标识别系统就仅仅是个机械的分类器,它与人类的感知能力大相径庭。因为像这样的分类器仅仅能够区分物体,它并不能真正进行理解以及判定目标。因此呢,目前的AI能够在完美的、静态的、具有明确信息的单任务场景中胜任。为了对其进行拓展,我们需要建立真正意义上的AI。

张钹院士主要参与人工智能、人工神经网络、机器学习等理论研究,以及这些理论应用于模式识别、知识工程与机器人等技术研究。在这些领域,张钹院士已发表 200 多篇学术论文和 5 篇(或章节)专著(中英文版),且专著获得国家教委高等学校出版社颁发的优秀学术专著特等奖。

张钹院士的科研成果分别获得 ICL 欧洲人工智能奖、国家自然科学三等奖、国家科技进步三等奖、国家教委科技进步一、二等奖、电子工业部科技进步一等奖以及国防科工委科技进步一等奖奖励。此外,张钹院士还参与创建智能技术与系统国家重点实验室,于 1990‐1996 年担任该实验室主任。

在过去 30 多年中,张钹院士提出问题求解的商空间理论,在商空间数学模型的基础上,提出了多粒度空间之间相互转换、综合与推理的方法。此外,张院士还提出了问题分层求解的计算复杂性分析以及降低复杂性的方法。该理论与相应的新算法已经应用于不同领域,如统计启发式搜索、路径规划的拓扑降维法、基于关系矩阵的时间规划以及多粒度信息融合等,这些新算法均能显著降低计算复杂性。在人工神经网络上,张院士提出基于规划和基于点集覆盖的学习算法。这些自顶向下的结构学习方法比传统的自底向上的搜索方法在许多方面具有显著优越性。

根据 Google Scholar,张院士引用量最高的研究论文主要关注于神经网络的稳定性分析、神经网络的建模方法等,它们都是在深度学习崛起之前做的研究,由此可见张院士是较早研究这种层级表征模型的研究者。

Jeff Dean:快点用深度学习解决问题吧!

(上图)Jeff Dean进行名为“Deep Learning to Solve Challenging Problems”的主题报告

Jeff Dean 大神无需过多介绍,想必大家都了解。这次他又多了一个新身份:受聘新成立的清华AI研究院学科顾问委员会委员,所以他也罕见的一身正装范儿。

在此次报告中,我将介绍我们团队正在做的工作:建立高性能,大规模机器学习系统。此次报告涉及特定硬件(Tensor Processing Units,张量处理单元)的设计初衷以及细节,同样地也会介绍诸如TensorFlow这样的软件架构如何被设计成为能够允许ML研究者方便地进行算法实现以解决困难问题的利器。同样也会讨论目前涌现的能够解决困难问题的机器学习算法,它能够让我们无须手动调节参数以及设计算法,取而代之的是让机器去学习这些东西,我们可利用该算法建立自适应以及灵活的机器学习系统。

过去6年来,Google Brain团队一直在研究人工智能中的难题,构建用于机器学习研究的大型计算机系统,并与Google的许多团队合作,将其研究和系统应用于众多Google产品当中。他们已经在计算机视觉,语音识别,语言理解,机器翻译,医疗保健,机器人控制等领域取得了重大进展。谷歌在人工智能领域最终目标是三点:利用人工智能和机器学习让谷歌的产品更加实用(Making products more useful);帮助企业和外部开发者利用人工智能和机器学习进行创新(Helping others innovate);为研究人员提供更好的工具,解决人类面临的重大挑战。

演讲从深度学习热潮的兴起讲起:从2010年开始,深度学习的热度稳步上升,如今Arxiv上发表的机器学习论文增长趋势已经超过了摩尔定律。深度学习在图像和语音识别为代表的一系列任务中取得了越来越卓越的成果,这个概念和技术并不是全新的,但为什么在过去的几年当中实现了极大的突破?这一切都得益于计算力的提升,在有充分计算力的情况下,深度学习解决问题的精度将大幅超越传统方法

在2008年美国工程院列出的14大“21世纪重大工程难题”中,有5项都能用到深度学习和机器学习,甚至用深度学习和机器学习去解决,包括环境问题、城市基础设施,健康医疗,以及人脑的逆向工程。Jeff Dean本人还添加了两项,他认为不受语言限制获取信息和交流,以及构建灵活通用的AI系统也十分重要,而这两点也需要深度学习。

(上图)2008:21世纪重大工程难题

接下来,Jeff Dean重点介绍了一些Google Brain团队已经完成的研究和计算机系统工作,着眼于如何使用深度学习来解决具有挑战性的问题,来证明深度学习的有效性:

提高城市基础设施方面Waymo的自动驾驶已经离实际应用越来越近。

在健康信息学方面,谷歌用深度学习分析糖尿病视网膜图像,算法的准确率已经超越了人类医生;不仅如此,使用深度学习视网膜图像分析来预测心血管疾病突发风险,获得人体解剖学和疾病变化之间的联系,这是人类医生此前完全不知道的诊断和预测方法,不仅能帮助科学家生成更有针对性的假设,还可能代表了科学发现的新方向。此外,谷歌还与顶级医学院合作使用深度学习分析电子病例,预测患者预后等情况,已经取得了不错的初步成果。

促进跨语言的交流和信息共享,有谷歌的神经机器翻译(GNMT),GNMT在多个语种的翻译上平均质量提高50%到80%以上,超过了过去十年的进展,而且谷歌还开放了基于TensorFlow的源代码。Jeff Dean特别提到,谷歌的目标是一百多种语言对之间相互翻译,这是一个非常复杂的工程问题,使用同一个基于神经网络的模型去翻译不同的语种,在工程上大大简化了工作量。

在人脑逆向工程方面,谷歌和马克思普朗克研究所等机构合作,从理解大脑神经网络的图像入手,重构生物神经网络。目前,使用马克思普朗克研究所的数据,研究人员已经生成了大约6000亿个体素。他们还提出了一种模拟生成神经网络的算法“Flood Filling Networks”,可以使用原始数据,利用此前的预测,自动跟踪神经传导。

其他还有使用深度学习预测分子性质,制作更好的药物,开发碳封存方法,管理氮循环……这些问题都能够在更好的科学工具的帮助下实现。而这个帮助科学工具开发的工具,就是谷歌深度学习开源框架TensorFlow:TensorFlow的目标是成为每个人都可以使用的机器学习平台,成为通用的平台,成为最好的平台,去更好的促进行业交流和创新。

TensorFlow是目前全球最受欢迎的深度学习框架,在中国也有强劲的开发者生态。此前一位参与TensorFlow开发的中国开发者声称,他认为谷歌推广TensorFlow不是为了赚钱,而是很纯粹的为了技术。

“2017年以前,谷歌并没有在中国展开太多活动。尽管谷歌知道中国市场很大,但很多业务无法展开。即使谷歌的云业务服务器能在中国大陆运行,但是由于阿里巴巴等本土竞争对手也在销售便宜的云计算产品,这使得谷歌难以盈利。但是,我们所有的中国开发者都在等待谷歌来中国,推出更多TensorFlow技术和产品。”

谷歌当然明白这一点,而包括这次研讨会在内的众多高校活动,将进一步把TensorFlow的用户人群拓展到学生里面。最后,这位谷歌AI的总负责人号召大家都使用深度学习:“深度神经网络和机器学习取得的重大突破,正在解决世界上一些最为重大的挑战;如果你还没有考虑使用深度学习,我几乎可以肯定你应该马上这么做!”

Feifei Li:机器理解人类,提供医疗环境智能

李飞飞进行名为“Illuminating the Dark Space: Towards Ambient Intelligence in AI-assisted Healthcare”的主题讲座

今天给大家分享的实际上是最近五六年以来一次比较新的探索,虽然大家知道我做的很多研究很多都是计算机领域机器学习的基础科学,但是在应用方面,我们一直坚信“以人为本”的AI,需要对人类的福祉有所帮助。最重视的一个应用领域是医疗健康领域,所以,此次讲座我将给大家分享一下,最近两年我们在医疗健康领域的一些探索,还希望听取大家的意见。

接下来就是此次报告的正文。

在开始之前,我想向众多的合作方、学生、博士后,特别是在过去的五六年时间里,与我们在 AI 和医疗健康领域一起工作的临床医生表示感谢。除了以上与我列举的这部分人员合作之外,我们还与世界各地的医院合作,包括斯坦福大学Lucile Packard儿童医院以及斯坦福大学医学院。此外,我们还与犹他州山间麦凯迪医院、旧金山Unlock高级中心合作。刚刚,我们还与上海交通大学以及瑞金医院开展了一项令人兴奋的研究合作。

李飞飞团队成员

何为Ambient Intelligence?

在中国和美国,医疗健康都是最受关注的问题。不断提高的成本,是全球医疗健康的主要问题之一。虽然医疗成本不断上涨,但质量并不见得会一定提高。那我们又该如何提高医疗质量呢?削减成本是目前主要的研究和提高的方向。但幸运的是,在过去的十年里,推进医疗方面的工作已取得了很大的成就。

我们已经看到药物和疫苗上的改进。我们看到了医疗影像的改进,医疗设备等方面巨大的进步。正如我的同事 Jeff Dean 在上午的分享中提到的那样,大数据和人工智能正推动医疗健康特别是诊断方面的进一步发展。此外,精密医学、药物发现相关的治疗选择,正基于机器学习、人工智能取得了新的进展。但是,在过去几年里我关注的医疗健康领域里,有一个往往被多数人忽略的领域,即医疗健康服务的物理空间。如果你考虑到了“医疗”这个词,那么“疗”这个词则非常重要。因为,物理空间指的是临床医生、护士、医生为治疗病人的地方。我们需要在一定的物理环境下通过与患者的互动来提升医疗服务的水准。

因此,在这段时间里我们在斯坦福大学研究的方向是,赋予医疗物理空间“Ambient Intelligence”的属性。让我先来定义下“Ambient Intelligence”的概念。需要说明的是,我们并非第一个想到这个概念,而这个概念也并非特属于医疗领域。一个可接受的定义是:未来将是一个环境满足需求的世界,多数情况下我们无需思考,智能也会萦绕空间,就像这个房间里的灯光。你感受不到科技的存在,但它就在那里,帮助我们更好地做一些事情,这就是我们所说的“Ambient Intelligence”

(这里有相关视频介绍(需翻墙))

那么,为什么我们需要变得智能?为什么我们需要提高医疗健康的服务质量?这是因为,执行和操作是临床医生在医疗服务中的一大痛点。在医疗领域,我们通过数百年知识的积累,需要在各种程序中完成预期的操作,而实际上,符合预期的操作并不总是发生。当出现小毛病、疏忽或错误时,就会涉及医疗成本。而这种成本,往往关乎人类的生命。事实上,如果与一年内车祸死亡的人数相比的话,医疗事故引发的死亡人数远远高于前者。所以,这对我们而言是一个非常重要的问题。如果 AI 可以用来帮助解决这个问题,那么这会是一个以人为本的应用。在美国,国家医学研究所每隔几年就会针对医疗服务中出现的人为错误进行深度研究。这是我们思考的起点。

为什么临床医生会在医疗中犯错误呢?这一切都是靠人的主观意识完成的。在一个高度复杂的环境下,治疗到什么样的程度也是非常复杂,中间有很多步骤和程序,也有很多的不确定性和不可预测性。而且,错误或疏忽等都会导致这些问题的发生。所以,当潜在的错误都可以预测时, 便意味着以上医疗问题都能得以解决。例如,病人可能会从床上掉下来,就需要通过行为活动传感器以检查患者是否坠落。再或者检查是否需要进行手部卫生的处理,与之相关的传感器就被发明出来,试图解决这个问题。此外,还有许多不同类型的本地化解决方案试图缩小医疗健康质量与服务之间的差距。这关键就在于高度本地化。 每当出现一个错误或潜在的缺陷,就需要一个新的解决方案,且不具备可扩展性。这些本地化解决方案有很多不同的情景无法预测、监控。

那么我们能做些什么呢?有另一种方式可以考虑改善医疗健康的质量。大概五年前,我和斯坦福的同事们就开始跟进一种新的技术浪潮——自动驾驶技术,而这种新技术似乎与医疗健康毫无关系。但事实上,它们是高度相关的。先来看看自动驾驶汽车是如何工作的。

这是一款配备了智能传感器的汽车,它能够感知从行人,到汽车、物体、路标等的道路环境。而且,一旦它能感知环境,就会将信息输入到后台,你就能利用机器学习算法做出决定和预测,辅助汽车驾驶。所以,我们受到这种思维以及“Ambient Intelligence”概念的启发,想要将 AI 注入到医疗服务的物理空间中,以便我们能够协助执行预期的步骤。

这是一个医院单元的示意图:由许多传感器覆盖,可以观察不同的医疗服务情况。首先,我们需要通过传感器的性能来改造物理空间,如果是一家(设备)传统的医院,它可能就没有现代化的传感器以帮助收集并将这些潜在的信息传递给算法。接下来,一旦我们收集了数据,我们需要辨认出在这个环境里的活动,无论是手术室、病人康复室,还是在养老院里。

而辨认出该医疗活动的关键因素在于对人类活动的理解进行可视化。现在,如果你来自计算机视觉领域,那么你可以将医疗应用与计算机视觉的基础科学联系起来。事实上,多年以来,理解人类活动一直是计算机视觉的核心问题。所以,我将展示一些可以帮医疗服务环境提升的基础科学研究。最终我们希望整个医疗数据可以整合到整个医疗生态体系中。

让AI注入医疗服务的每一环节

接下来的演讲中,通过展示我们最近的一些工作,我将分享到以下三个研究方向:感知、人类活动识别,以及医疗生态体系。

### 感知

首先是感知,即将传感器集成到物理空间,并构建一个数据基础架构的过程。我们最近发表了一篇论文,讨论了我们在试点中所做的工作。我想问在座的各位:在医疗服务环境中,基于“Ambient Intelligence”的感应系统最重要的部分是什么?

一是隐私,这是非常重要的。患者需要隐私,临床医生也需要隐私。

二是通过空间进行感知。刚才提到的本地化解决方案,其部分问题是因为太过于本地化了,很难在空间上扩展。

三是根据时间进行感知。如果人类来观测活动,他们往往会感到厌倦。

所以,我们想利用机器并且将其变得可扩展。在过去的数十年里,现代传感器已经有了很大的发展。那些曾经玩过 Xbox 视频游戏的玩家,应该都知道深度传感器,它可以用来保护隐私。

如何通过深度传感器收集人类活动的数据?

在我们的两所试点医院(犹他州儿童医院和承认重症监护病房)中,我们进行了深度传感器的试用。这些深度传感器被安装在医院的病房中。例如,在儿童医院,我们安装了将近30个不同的传感器,目的就是为了通过传感器获取更多的数据以理解人类的行为。

还有一种传感器,它与前者相互补,主要作用于生理信息,即热传感器。通过深度传感器可以看到病人轮廓;而通过热传感器收集信息,你不仅可以看到病人的轮廓,你实际上还能看到其他关键的物体,如氧气管。这对病人而言是非常重要的。所以,在我们的试点研究中,我们同样也会用到热传感器。实际上,我们正在与旧金山的一所养老院合作,在养老院里安装了热传感器和深度传感器,以帮助医生监测老人的行为,帮助他们独立生活。

其实,将传感器投放在医疗环境中,数据基础架构的建设就已经面临着巨大挑战。例如,持续的数据源就意味着大量数据的涌入。如果我们使用传感器的原始分辨率,就会出现需要处理海量数据的问题。因此,我们进行了一些自适应抽样以减少要处理的数据。这些都是我们必须面临着的技术挑战。但我们依然保持着:对人类行为识别的计算机视觉研究的专注,也希望应对医疗环境下的种种挑战,为计算机视觉的基础科学研究做出贡献。

人类活动识别

视觉智能,指的是在动态物理世界中发生的过程。谈到动态这个概念,有很多的信息、事物转瞬即逝。这意味着:我们有时会处理之前从未见过的情况。例如,在医疗环境这种复杂的情况下,这名患者在地板上睡了会儿,在床上又睡了会儿。这并非是我们通常利用数据进行训练的场景。所以,这种问题有待解决。

在医疗场景中,我们还要处理物理空间的限制问题。比如一般计算机视觉处理的都是类似 YouTube 用户上传的视频,但是医院的空间有限,因此传感器的装设位置也受到限制,拍摄到的都是各种角度的画面,非常具有挑战性。同样重要的是,我们还会面临计算效率的问题,因为我们希望为临床医师提供实时反馈,因此计算效率极为重要。

人类活动识别是目前计算机视觉领域最受关注的方向之一,目前也已经一些公开的数据集,而且也有很多非常不错的工作。我想介绍的是,我们是如何把我们的工作和医疗健康应用相结合的。第一个是发表在 ECCV 16 上的一篇论文,论述了如何处理不同视野角度的问题,这只是最基础的。我们用到了很多深度学习结构,比如这个用来做图像分类的 Vanilla CNN 网络。

比如,我们希望检测临床医师在进出病人的房间前后是否都有洗手,就需要面临很多的挑战。首先,由于我们的传感器大都安在天花板上,因此画面的视角和正常的 YouTube 视频画面的视角非常不一样。此外,人是运动的,因此我们安装了很多传感器,来对人进行追踪。

我这里简单介绍下视角问题。我们使用了 Vanilla CNN 网络来做分类,唯一的变化就是我们增加了一个转换网络(transformer network),来解决训练数据的视角问题。然后,为了解决多个传感器的追踪问题,我们将不同的个体进行 ground projection,然后将整个 3D 空间的投影结合起来,进行联合优化,以此来追踪不同的个体。

为什么我们会选择手部卫生作为第一个应用案例呢?因为不注意手部卫生是病人死亡的重要元凶之一。实际上,因为每年死于医院获得性感染的病人是交通事故致死人数的三倍。

而大多数的医院获得性感染都是没有注意手部卫生导致的。这是医疗系统里的一个顽疾,解决这个问题的唯一办法是派人到医院里监督医生和护士,督促他们洗手。但是这种方法非常低效,不仅不能做到实施监督,也非常耗费时间,而且人也可能会犯错误。因此,通过使用深度学习和智能传感器系统来对医务人员进行追踪,我们取得了非常好的结果。和人类检查员相比,我们的方法观察到与事实更接近。

我们的系统可以追踪医务人员的行动轨迹,而这些数据对医疗系统来说非常宝贵,不仅仅可以用来追踪医务人员洗手了没,还可以用来优化工作流程。结合智能传感器和计算机视觉识别系统,我们在手部卫生检测领域取得了鼓舞人心的结果。下一步,我们将会把反馈信号实时传递到周遭环境中,以此来督促大家洗手。不过,这还远远不够,我们还需要理解各种不同的行为,观察它们,最终帮助医生和护士优化治疗和护理流程,这一点很重要。这就引出了我们的下一项工作:密集多标签活动识别。

比如,在 ICU 里面经常会涉及到测血压、绑止血带、用医用究竟喷雾消毒等等一系列的动作,我们希望最终能够映射所有的医疗活动,帮助医生和护士更好地照顾病人。为了做到这一点,仅仅用 CNN 是不够的,特别是对于静态帧分类。我们真正想做的,是将其扩展到时域,利用视频数据来识别人类活动。很多人都对此领域做出过相关贡献,这里我就不展开了。

但是总的来说,利用视频来进行活动识别的工作仍然很少,大部分工作都是活动分类,比如为潜水视频打一个单一的标签,或者是活动检测,为视频中不同活动分配相应的标签。不过,时域理解仍然处在比较初始的水平,比如很多帧都没有标签,而且大多数的测试视频都只有一种或少数几种活动类型。在医疗健康领域,活动要密集的多,因此我们需要识别更多不同种类的活动。

为了解决这个问题,我们开发了基于 RNN 序列模型的网络,使用 multilevel loss 来预测同时发生的活动。我们在 MultiHUMOS 数据集上进行了计算机视觉基准测试,与Vanilla LSTM 或者Stream CNN 相比,我们的算法在多活动标记领域取得了领先的成果。我们正试着在 InterMountain 医院的 ICU 里部署我们的模型,来观察病人的活动。我们选择从病人的四种活动开始,比如上床、下床等动作。知晓病人的活动水平,对医务人员提供更好的医疗服务至关重要。

最后,我还想介绍下我们在减少训练数据量方面的工作,这在养老院的应用中非常有用。人口老龄化是世界性的问题,我们真的需要做一些事情来帮助老人们。

我们和很多老年病患交谈过,并确定了十几种和老年人健康息息相关的行为。我们希望最终使用计算机视觉系统来识别他们的行为,帮助患者和医生。举例来说,跌倒对老年人说是一个大问题,它甚至有可能夺走老人的生命。我们正在尝试解决跌倒检测的问题,但是在这个领域,我们不可能收集到大量的训练数据,因此我们的一个想法是使用自监督学习系统,比如我们去年发布在 CVPR 上的一项工作。另外,我们还尝试了迁移学习的想法。

医疗生态系统

最后,融入整个医疗生态系统也非常重要。为此,我们与斯坦福大学的其他小组展开合作,在为医院赋能时,我们不仅考虑智能传感器本身,还与病理学、放射学、医疗文献、图片等相结合。比如,我们和皮肤科医生一起研究烧伤患者的图像分割,又比如,我们也一直在寻找手术视频来识别手术中的活动。

总的来说,这是一个非常新兴的研究领域,它使用计算机视觉和机器学习算法来改善医疗保健服务,并帮助医生和护士观察病人活动,提高护理质量,从挽救更多的生命。从感知到人类活动识别到生态系统,以及建立大型合作关系,未来还有许多工作要做。

Bill Freeman:视觉信息促进语音辨识

第二天的主题演讲人是谷歌研究科学家、MIT教授Bill Freeman,题目是“Look to Listen: Using Vision to Improve Speech Understanding”。

人类拥有卓越的人声辨识能力,甚至在嘈杂的多人环境中识别出特定的一个人。但,计算机很难做到这点。我们最近的一项研究工作就是让计算机具备这种能力,我们借鉴了人类在这个过程中利用到的线索:“看”着说话人讲话。我们算法的输入时两个或者多于两个人的说话视频,输出就是被挑选出的某个说话人的声音。这个技术我们把它命名为“Looking to Listen”,可以应用于多个领域例如:语音识别、翻译以及辅助听力等。

主题报告"Look to Listen: Using Vision to Improve Speech Understanding"

人类在识别和理解人类语音方面有着极强的能力,哪怕是好几个人同时间在嘈杂的环境中说话,也能分清楚谁在说什么。对于计算机而言,这个任务还很艰巨。

最近,Freeman教授的团队通过让计算机“看”,也即观察说话者来辅助语音识别,大幅提升了计算机语言识别的性能。实际上,这也是人类在语音识别时常常采用的方法。他们的研究论文“Looking to Listen at the Cocktail Party”,已经被SIGGRAPH 2018接收。这项研究的起点,是MIT的研究人员发现,视频信息实际上可以充当一种“视觉麦克风”。一袋放在桌上的薯片,在旁边播放音乐,观察高速摄像头拍摄下的薯片包装袋,能发现包装袋在颤动,从而推理出音频信息。

在此基础上,Freeman教授带领的Google Research团队,通过计算生成视频,使用视觉信息,加强其中特定人物的语音,同时抑制其他的所有声音。这个方法适用于带有单个音频轨道的普通视频,用户需要的只是选择他们想要听的视频中人物的脸部,或者根据上下文在算法上选择这样的人物就行了。

他们设计了一种算法,输入有两个及更多人同时说话的视频,算法能够输出其中被选定的那个人的音频,非常清晰

“鸡尾酒效应”论文提出的基于神经网络的多数据流架构

他们把这种技术成为Looking to Listen,在语音识别、会议转录和视频会议等场景中,有着巨大的应用潜力。 (墙Video: https://www.youtube.com/watch?v=rVQVAPiJWKU)

除了“从看到听”,在更早一些的时候,Freeman教授的团队还做了“从听到看”的研究,也即从声音中学习画面(Learning Sight from Sound)。在一项工作中,他们表明环境声音可以用作学习视觉模型的监督信号。他们训练了一个卷积神经网络来预测与视频帧相关的声音的统计汇总,网络学会了关于某个物体(对象)和场景有关声音信息的表示。结果发现,具有类似声音特征的视频,比如海边和河边,虽然视觉信息非常不同,但在网络学会的声音信号空间中,却是十分类似的。

通过这个过程,网络学会了关于某个物体(对象)和场景有关声音信息的表示。实验结果显示,这种方法的性能与其他最先进的无监督学习方法相当。图像是声音的补充,从一种模态(比如图像)中能够得到一些很难或者无法从另一种模态(比如语音)分析中得到的信息。反之也一样。通过这样将视觉和语音信号相结合,能够彼此促进。此外,如果能够确定哪些视觉信号能在训练过程中帮助检测特定的声音信号,将进一步提升语音识别的效果。

大合影

距离较远,只能拍成这样了

参考

  • Serena Yeung. http://ai.stanford.edu/~syyeung/
  • Yeung S, Downing N L, Fei-Fei L, et al. Bedside Computer Vision-Moving Artificial Intelligence from Driver Assistance to Patient Safety[J]. The New England journal of medicine, 2018, 378(14): 1271.
  • William T. Freeman. https://billf.mit.edu/publications/all
  • Ambient Sound Provides Supervision for Visual Learning. http://andrewowens.com/ambient/index.html
  • Jeff Dean主页:https://ai.google/research/people/jeff
  • Feifei Li主页:http://vision.stanford.edu/feifeili/
  • 电子书: http://g.cheerue.com/#/index

特别感谢:新智元、人工智能学家、机器之心等公众号的支持!