首个三维具身通才智能体LEO：全面掌握感知、推理、规划、行动

日期：2023-12-08 20:50:40 栏目：文章分享浏览：17090 评论：15

12月8日消息:近年来，多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而，这些模型主要基于二维图片和文本数据，对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题，北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员，提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。

首个三维具身通才智能体LEO：全面掌握感知、推理、规划、行动-第1张图片-Ceacer网络

论文链接:https://arxiv.org/abs/2311.12871
项目主页:https://embodied-generalist.github.io/
代码链接:https://github.com/embodied-generalist/embodied-generalist

LEO的核心设计思想是以大语言模型为基础，在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重，LEO能够在不同任务之间实现无缝切换，构建了一个统一的处理框架。在数据集的收集方面，研究团队通过两阶段训练策略，包括物体级别和场景级别的大规模数据集，为LEO的训练提供了坚实基础。

研究的主要贡献体现在三个方面:首先，构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次，提出了高效的学习策略，通过将以物体为中心的三维表征与语言模型相结合，成功打通了视觉-语言-动作的通道。最后，研发了生成高质量三维视觉语言数据的方法，构建了大规模的视觉-语言-动作指令微调数据集。

LEO的应用前景广泛，作为未来的家庭助理，它能够与人进行交互，调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面，LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运，展现出巨大的应用价值。

LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破，为实现通用人工智能迈出了重要一步。

评论留言

小游客

发布于：2023-11-25 09:21:43

1111111

回复Ta

小游客

发布于：2023-11-20 16:00:52

111111111111111111111

回复Ta

小游客

发布于：2023-11-18 14:56:37

11

回复Ta

小游客

发布于：2023-11-12 19:05:55

111

回复Ta

小游客

发布于：2023-11-11 19:36:35

好好好

回复Ta

小游客

发布于：2023-10-26 15:59:12

1111

回复Ta

小游客

发布于：2023-10-23 15:51:50

1111

回复Ta

小游客

发布于：2023-07-10 11:12:18

支持

回复Ta

小游客

发布于：2023-10-01 02:43:17

111

回复Ta

小游客

发布于：2023-07-05 14:12:03

哈哈哈

回复Ta

‹‹ 1 2 › ››

我要留言

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。发布前请先查看评论规则：点我查看

首个三维具身通才智能体LEO：全面掌握感知、推理、规划、行动

标签：

相关推荐

评论留言

我要留言