“AI教母”李飞飞:Sora仍是二维图像,只有三维空间智能才能实现AGI|钛媒体AGI独家

栏目:资讯 时间:2024-08-10 12:26:35

钛媒体App 8月2日消息,日前斯坦福大学举办的Asian American Scholar Forum论坛的一场闭门会上,有着“AI教母”之称的斯坦福大学教授李飞飞对钛媒体App独家表示,尽管美国OpenAI公司的Sora模型可以文生视频,但就本质而言,它仍属平面二维模型,没有三维立体理解能力,只有“空间智能”才是AGI未来方向。

李飞飞是在针对钛媒体创始人赵何娟提出的关于“空间智能”模型和大语言模型关系的问题讨论时,做出上述回应。她进一步解释称,现在的多数模型如GPT4o和Gemini 1.5,都依然还是语言类模型,即输入语言,输出语言,虽然也有多模态模型,但仍局限于语言,即便有视频,也是基于二维的平面图像。但未来要实现AGI的关键一环是“空间智能“,需要三维视觉模型。

她以Sora展示的“日本女性走过霓虹闪烁东京街头”的 AI 视频做例子。

“如果你希望算法换个角度,来展现这个女子走过街头的视频,比如把摄像机放在女子背后,Sora无法做到。因为这个模型对于三维世界并没有真正的深刻理解。而人类可以在脑海中想象女子背后的情景。”李飞飞表示,“人类可以理解在复杂的环境下如何活动。我们知道如何抓取,如何控制,如何造工具,如何建造城市。根本而言,空间智能是几何形状,是物体间的关系,是三维空间。空间智能是关于释放在三维空间生成(视觉地图)并推理和规划行动的能力。其应用是广泛的, 比如用于AR 和VR,用于机器人,App的设计也需要空间智能。”

李飞飞向钛媒体App强调,“自然进化使动物理解三维世界,在三维空间生活、预判并互动。这种能力已有5.4亿年的漫长历史。当三叶虫第一次在水中看到光,它必须在三维世界中‘导航’。如果不能在三维世界中‘导航’,它将很快成为其他动物的大餐。随着进化的推移,动物的空间智能能力加强。我们理解形状,我们理解深度。”

现年48岁的李飞飞,是著名计算机科学家、美国国家工程院院士、美国国家医学院院士,并且在美国斯坦福大学以人为本的AI研究所担任负责人。她于2009年领导研发的ImageNet图片数据库和视觉识别大赛,对海量图片进行精准标注和分类,推动了计算机视觉的识别能力的进步,也是促成 AI 突飞猛进发展的关键因素之一。去年,她公布的VoxPoser成为具身智能(Embodied AI)发展中关键技术方向。

今年7月,李飞飞创办的AI公司 World Labs宣布完成两轮融资,投资方包括a16z(Andreessen Horowitz)等,公司最新估值已达10亿美元(约合72.6亿元人民币)。

7月底这场亚裔美国科学家论坛闭门会上,李飞飞的演讲也让更多人了解到Word Labs和她的“空间智能”发展理念到底是什么,即要让AI真正“从看到,到做到”。

如何实现从“看到”到“做到”

所谓“空间智能”,是指人们或机器在三维空间中的感知、理解和交互能力。

这一概念最早由美国心理学家霍华德·加德纳(Howard Gardner)在多元智能理论中提出,让在大脑中形成一个外部空间世界的模式,并能够运用和操作。实际上,空间智能让人有能力以三度空间的方式来思考,使人知觉到外在和内在的影像,也能重现、转变或修饰影像,从而能够在空间中从容地游走,随心所欲地操弄物件的位置,以产生或解读图形的讯息。

从广义上看,空间智能不仅包括对空间方位的感知能力,还包括视觉辨别能力和形象思维能力。而对于机器而言,空间智能则是指其在三维空间中的视觉数据处理能力,能够精准做出预测,并基于这些预测采取行动。这种能力使得机器能够像人类一样在复杂的三维世界中导航、操作和决策,从而超越传统二维视觉的局限。

今年4月举行的TED演讲上,李飞飞坦言,视觉能力引发了寒武纪大爆发,神经系统的进化带来了智能。“我们想要的不仅仅是能看会说的 AI,我们想要的是能做的 AI。”

在李飞飞看来,空间智能是“解决 AI 技术难题的关键法宝”。

7月底这场闭门活动上,李飞飞首先回顾了自10年前开始的现代 AI 三大驱动力:算法构成的“神经网络”,即“深度学习”;现代芯片,主要是英伟达GPU芯片;以及大数据。

自2009年以来,计算机视觉领域进入爆炸式进展。机器可以迅速认出物体,和人类的表现不相上下。但这只是冰山一角。计算机数视觉不仅可以识别静止的物体,跟踪移动的物体,而且可以将物体分成不同部分,甚至可以理解物体之间的关系。因此,基于图片大数据,计算机视觉领域突飞猛进。

李飞飞清晰地记得,大约10年前,她的学生Andrej Karpathy参与建立图释算法研究。他们给计算机展示一张图片,接着通过神经网络,计算机可以输出自然语言,比如说:“这是一只猫咪躺在床上。”

“我记得告诉Andrej,让我们反转一下。比如给一个句子,让计算机给出一张图片。我们都笑了,觉得可能永远不会实现,或者将在很远的未来实现,”李飞飞回忆说。

过去两年,生成式 AI 技术迅猛发展。特别是几个月前,OpenAI发布了视频生成算法Sora。她展示了她的学生们在谷歌研发的类似产品,质量非常好。这个产品在Sora发布以前几个月就存在了,而且所用的GPU(图形处理器)规模比Sora少很多。问题是,接下来AI将走向何方?

“多年来,我一直表示,‘看到’即为‘理解世界’。但是我愿意将这个概念推进一步,‘看到’不仅仅是为了理解,而是为了做到。自然界创造了像我们这样有感知能力的动物,但实际上从4.5亿年前,就存在这样的动物。因为这是进化的必要条件:看到和做到是一个闭环,” 李飞飞表示。

她用她最喜欢的猫咪作为例子。

一只猫咪、一杯牛奶、还有植物在桌子上的照片。当你看到这张照片时,你脑海里其实出现一个三维视频。你看到了形状,你看到了几何。

事实上,你看到了几秒钟前已经发生的事情,和几秒种后可能发生的事情。你看到了这张照片的三维空间。你在计划接下来做点什么。你大脑在运转,计算如何做才能拯救你的地毯,特别是这只猫咪是你自己的,地毯也是你自己的。

“我把这一切称作空间智能,也就是将三维世界做成模型,就物体、地点、事件等在三维空间和时间内等进行推理。在这个例子里,我谈的是真实世界,但也可以指虚拟的世界。但是空间智能的底线是将“看到”和“做到”联系在一起。有一天,AI将可以做到这一点,“李飞飞表示。 

其次,李飞飞展示了基于多张照片重建的三维视频,然后她给出基于一张照片做的三维视频,这些技术都可用于设计中。

李飞飞表示,具身智能AI或者人形机器人,可以将把“看到”与“做到”形成闭环。

她表示,斯坦福大学的同事们和芯片巨头英伟达正在联合进行名为BEHAVIOR的研究,将家庭活动构建一个基准的动态空间,从而评估各种机器人在居家环境中的表现。“我们正在研究如何将语言模型与大型视觉模型相连接,从而可以指挥机器人制定计划并开始行动,“她说。她给出三个例子,一个是机器人在打开抽屉,另一个是机器人在将手机充电线拔掉,第三个是机器人在做三明治。所有指令均通过人类的自然语言给出。

最后,她给出一个例子,认为未来属于“空间智能”世界,人类可以坐在那里,带上一顶有传感器的EEG帽子,不用张嘴说话,仅靠意念远程告诉机器人:做一顿日式大餐吧。机器人收到意念后,解密意念,即可搞出全套大餐。

“当我们将‘看到’与‘做到’通过空间智能联系在一起后,我们即可做到。”她表示。

李飞飞还表示,过去20年,她见证了AI激动人心的发展。但是,她认为AI或者AGI的关键一环就是空间智能。通过空间智能,看到世界、感知世界、理解世界并让机器人做事,从而形成良性闭环。

机器人将接管人类吗?

李飞飞在会议上表示,今天人们对于AI未来可以做什么太过夸张。她警告,人们不要将野心勃勃的、勇敢的目标与现实混为一谈,人们听到太多这样的论调。

事实上,当前AI已经到达拐点,特别是大语言模型。“但是,它仍然是充满错误的、有限的技术,仍需要人类深度参与其中,需要人类理解它的有限性。现在非常危险的论调是所谓的人类灭绝的风险,即AI正在成为人类的机器主宰。我认为,这对社会非常危险,此类言论将带来很多意外后果。AI的局限性没有被人类充分理解。我们需要深思熟虑的、平衡的、没有偏见的关于AI的交流和教育,“李飞飞强调说。

李飞飞认为,AI应该扎根于人类。人类创造了它,人类正在发展它,人类正在使用它,人类也应该管理它。

李飞飞表示,在斯坦福大学“以人为本的AI “研究所,他们采取了三个对待AI的方式,包括个人、社区和社会三个层面:

在个人层面,必须参与并拥抱AI。这是一个文明的科技。AI改变孩子们如何学习,改变了医生如何使用诊断方法,改变了艺术家如何设计,改变了老师如何授课。不管是否为科技人员,均可以发挥自己的作用,用负责任地态度使用AI。在社区层面,AI可向社区赋能,可满足社区的环境保护需求,或者农业需求。有些农业社区使用机器学习技术来检测社区水质。艺术家社区不仅在使用AI,而且表达了他们的担忧,以及如何解决问题、减轻风险的想法。在社会层面,政府、研究机构、企业、联邦机构和国际机构均应该认真对待这项科技。存在能源问题,这会影响到地缘政治。仍有开源与非开源的大讨论,这影响到经济和生态。仍有管理的问题,比如AI的风险与安全等。必须采取积极的方式,一个多方参与的方式,一个全社会的方式。现在已经没有回头路,李飞飞表示。她2017至2018年在谷歌领导AI项目,在2020年至2022年担任推特的董事会成员,目前是美国白宫的AI顾问。

关于AI对于工作的影响,李飞飞分享了她的看法。

李飞飞指出,在斯坦福大学以人为本AI研究所内,有个数字经济实验室,由Erik Brynjolfsson教授领导。这个非常复杂的问题有很多层面。她特别强调,“工作”与“任务”是两个不同的概念,因为实际中每个人的工作都由多项任务组成。

她以美国护士作例子。据估计,在护士8个小时的班次中,任务数以百计。因此,当人们讨论AI接管或者取代人类的工作时,必须分清是在取代任务还是在取代工作?

李飞飞认为,AI改变了一个工作内的多项任务,因此也会逐渐改变工作的性质。在呼叫中心场景中,新手的工作质量被AI提高了30%,但是熟练人员的工作质量并未因AI而有所提升。斯坦福大学数字经济实验室的一篇文章呼应了李飞飞的观点,该文章的标题是:“AI不会取代经理的工作:使用AI的经理正在取代不使用AI的经理。” 

李飞飞强调,科技会带来生产力的进步,但是生产力的进步并不会自动转化为社会的共同繁荣。她指出,历史上曾多次发生这样的事件。

(本文首发于钛媒体App,作者|Chelsea_Sun,编辑|林志佳)

版权声明:此文版权归原作者所有,若有来源错误或者侵犯您的合法权益,您可通过邮箱与我们取得联系,我们将及时进行处理。
阅读:147 次

相关文章

北京车展前瞻 这四款轿车是你的菜吗?

受疫情影响,今年国内重大车展都集中在2020年的下半年。漫哥就为大家盘一盘即将开幕的北京车展有哪些热门轿车? 吉利PREFACE 吉利PREFACE是CMA架构下的首款宽体轿车,是“科技吉利4.0战略”的产物,整体来看,整车的科技视觉效果还是非常强的,新车与去年展出的概念车型相差不大,前脸的盾形格栅尤为醒目,内部采用了纵向布局的熏黑直瀑式设计进气格栅,看上去立体感很强,漫哥甚至觉得还有一丝沃尔沃S60的韵味。 动力方面,可以说是这台新车的一大亮点,该车搭载沃尔沃Drive-E系列的2.0TD缸...
资讯2024-08-23 18:03:13

2021款宝马3系 标配火山红Sensatec皮革内饰

日前,2021款宝马3系正式上市,共推出9款车型,官方指导售价为29.39万元-40.99万元,其中325i/Li曜夜版指导价上涨2000元,其余7款车型售价维持不变。此外,新车全系标配火山红Sensatec皮革内饰、定速巡航和后视摄像机等。 2021款宝马3系官方指导售价动力车型售价(万元)2.0T320i 运动套装29.39325i M运动套装31.39325i M运动曜夜套装33.19330i M运动曜夜套装37.99320Li M运动套装31.89325Li M运动套装34.69325...
资讯2024-08-23 17:59:05

新款沃尔沃XC90  引入48V轻混系统

日前,新款沃尔沃XC90正式上市。新车共推出7款车型,售价区间63.89万-89.49万元。新款沃尔沃XC90主要在配置上进行升级,配备带有19个扬声器的宝华韦健音响和第三代City Safety城市安全系统等。动力方面,新款XC90搭载全新一代2.0T涡轮增压发动机,并引入48V轻混系统。 新款沃尔沃XC90 指导售价动力车型售价(万元)2.0TB5 四驱 智行豪华版 5座63.89B5 四驱 智行豪华版 7座65.79B6 四驱 智逸豪华版 7座69.59B6 四驱 智逸运动版 7座69....
资讯2024-08-23 17:51:52

《半熟男女》来袭,周雨彤董洁坐镇,演员阵容深厚,有爆款潜质

提起最接地气的国剧类型,大家第一时间想到的可能就是都市剧。 作为让人又爱又恨的一种题材,都市剧既能涌现《三十而已》、《向风而行》、《去有风的地方》这样的口碑佳作。 也能带来《烟火人家》、《小日子》、《老家伙》这些令观众血压飙升的烂剧。 不过,即便是良莠不齐,由于都市题材与观众生活息息相关,还是有不少新作等待接受观众的评价。 其中备受瞩目的当属《三十九二十八》,姐弟恋+职场+都市,把当下热门元素都集合在一起,太对观众胃口了。 同时,孙俪与董子健的组合属实让我没有想到,但两人意外地与角色高度契合,...
资讯2024-08-23 17:45:44

书迷热搜《炽热》心动情节让人过目不忘

第五章 我记得不久前付小姐才叫过我舅舅 客厅里十分的安静,不过短短几秒,付炽却像是过了几个世纪那么漫长。比起她的紧张防备,程知遇则是一副完全不认识她的样子。只是这样儿并没有让付炽放松下来,她反倒是更加的警惕。 已是晚饭时分,几乎从未出现过的程知遇竟然留了下来吃饭。这一顿饭付炽吃得味同嚼蜡。 程知遇和沈与为像是还没谈完事儿,饭后便去了书房。付炽则是上了楼。 她一直都注意着院子里的动静,但程知遇和沈与为不知道在谈些什么,院子里迟迟的么有动静。 付炽终于坐不住,起身打开门准备往楼下。 出了门才刚走了...
资讯2024-08-23 17:39:58

首款燃料电池MPV 大通EUNIQ 7

上汽大通EUNIQ 7将于9月13日亮相。新车基于上汽MAXUS G20打造,该车最大的亮点是应用了目前市面上较少使用的氢燃料电池系统,NEDC续航里程550公里,有望在年底正式上市。 外观方面,上汽大通EUNIQ 7前脸疑似采用分段设计,内部有望采用彰显新能源车身份的蓝色元素进行点缀。新车侧面整体线条平稳流畅,悬浮式车顶也为新车增添了时尚感。另外,EUNIQ 7还采用了MPV的侧滑门设计,非常具有商务气息。 上汽MAXUS EUNIQ 7是全球首款绿色环保燃料电池MPV车型。此前,上汽大通曾...
资讯2024-08-23 17:29:26

60岁“晚节不保”的吴刚,名和利也救不了他

吴刚啊吴刚,你咋#图文动态同步大赛#就这么不让人省心呢? 这位60岁的老戏骨最近可是闹出了不小的动静。从《人民的名义》里的"达康书记"到《狂飙》里的"徐忠",吴刚这一路走来可谓是跌宕起伏。本来以为他终于熬出头了,没想到这名利双收的日子没过多久,就开始"晚节不保"了。啧啧,这戏剧性的人生,比他演的戏还精彩呢! 说起吴刚的演艺之路,那可真是一波三折。这哥们儿1962年出生在北京一个普通家庭,从小就对表演有着浓厚的兴趣。可惜长得不够帅气,身材也不够魁梧,刚进入中国人民艺术剧院的时候,只能在话剧里跑跑...
资讯2024-08-23 17:23:47

没有人能逃过真香定律!如果有,就给他看看哈弗H2

为什么,老外突然喜欢上“中国制造”了呢? 不知道从什么时候开始,“让老外爱上中国造”成了中国企业的目标,中国的国际形象也从“买买买”变成了“Made in China”。最近几年,中国品牌、中国文化逐渐走出国门,中国也不再只是“世界工厂”,而是向技术型、文化型产业转型。前有华为格力,后有阿木爷爷李子柒,给世界人民来了一次“软硬兼施”的文化输出。 似乎外国人突然意识到,他们日常使用的那些东西,竟然大多是产自中国的。甚至就连欧、美、日等巨头众多的整车制造业,也被中国品牌强势插足,立足国内逐鹿全球。...
资讯2024-08-23 17:12:43

娱乐界亲情牵绊:黄晓明与陈梦的不可思议关系

娱乐体育圈里的明星亲属,无疑都是备受关注的对象。他们在各自的领域中叱咤风云,大放异彩,成为众人瞩目的焦点。而在这些璀璨明星背后,往往都隐藏着不为人知的亲情羁绊。今天,我们就来聊聊两位出类拔萃的明星表亲——影视界的超级偶像黄晓明和乒乓球女王陈梦,揭开他们家族内部那些惊人的关系和故事。 黄晓明和陈梦,这两个名字在各自的行业中都是响当当的存在。前者凭借精湛的演技和广泛的知名度,在影视圈中赢得了无数观众的喜爱,成为当之无愧的当红炸子鸡。而后者则在乒乓球运动中大放异彩,凭借出色的球技成就和出色的成绩,成...
资讯2024-08-23 16:51:55

新款标致3008 外观有变化明显

日前,标致官方发布了中期改款标致3008车型的官图。新车前脸采用了全新的造型设计,有多种动力系统可选,有望于今年年底在欧洲发售。 外观方面,新车采用了全新的家族式设计,整个前进气格栅采用了散射状的点阵式造型,前保险杠两侧也配合中网继续延展其特殊的碎片化设计,搭配标志全新的狮徽LOGO,整体看上去让人眼前一亮。 车身侧面,新车采用了双腰线设计,在前后翼子板处设计有内凹造型,颇具辨识度。新车还采用了双色车身,黑色的悬浮式车顶搭配银色的镀铬装饰条、造型独特的双五辐式轮圈,打造出时尚、大气,兼具运动感...
资讯2024-08-23 16:48:19

分类栏目

  • 首页
  • 电话咨询