请在Chrome、Firefox等现代浏览器浏览本站。另外提供付费解决DEDE主题修改定制等技术服务,如果需要请 点击 加我 QQ 说你的需求。

开源内置世界模型让机器人学会“预演”未来

教练技术 365bet体育 评论

目前,机器人的运动能力正在快速发展,一些机器人已经可以轻松地完成后空翻、奔跑等动作。然而,与完成

目前,机器人的运动能力正在快速发展,一些机器人已经可以轻松地完成后空翻、奔跑等动作。然而,“理解”为什么你面前的一杯水在你倒满水后会溢出,比完成后空翻更难。 近日,中国的一个科研团队开源了一个名为WoW(发音为“wow”)的嵌入式世界模型,可以让机器人像人类一样发展出强大的想象力和执行能力。我们如何理解我们的具体世界模型?机器人如何变得更聪明? 总部记者 袁嘉怡:在北京仿人机器人创新中心,各种形态的机器人本体正在接受内置智能数据采集和动作模型的训练。这款“天宫”机器人能够以1:1的比例自主重现视频中的动作姿势。该视频是机器人在执行任何动作之前的“想象”预览,可用于指导现实世界的交互。这种“整合”的能力“将知识与行动结合起来”,从富有想象力的排练到行动执行,都是基于科研团队专门开发的具体世界模型。 魔兽世界实体世界模型项目负责人齐晓伟先生:当机器人推动杯子时,我们人类本能地预测杯子会出来并被倒出,所以我们做出一个动作来接住它。世界模型本质上是人工智能用来想象和预测的模型,模拟人类的思维和决策。为了连接想象和现实,需要生成符合物理定律的未来预测图像,以便机器人能够真正将其想象的运动轨迹转化为现实世界并轴切它们。 魔兽世界具体世界模型项目算法负责人贾培东:这是我在家用手机拍的照片。世界模型生成一个未来状态,世界模型动作转换器使用逆动力学模型将该状态转换为特定的操作机器人必须执行的任务。我们拥有数百万数据级别的关于现实世界交互的内置智能,使世界模型在高度通用的现实世界场景中真正可操作。 《魔兽世界体现世界》模型由北京仿人机器人创新中心与北京大学、香港科技大学团队合作开发,并向全球研究人员和开发人员开放。该世界模型可应用于多种机器人,包括类人机器人、类人机器人、机械臂机器人等,涵盖家庭、超市、工业、物流等多种场景。此外,可以在计算机上高精度模拟漏水等极端情况,使其成为船上训练难以实现的数据收集的重要补充。 具备独立进化能力,全局模型“自行学习” 具身世界模型就像一个虚拟世界d 机器人可以做任何他们想象的事情。为了正确有效地训练机器人,这个虚拟世界必须足够理性,并且与现实世界的运行逻辑一致。为了实现这一目标,由北京仿人机器人创新中心、北京大学和香港科技大学共同组建的《魔兽世界Embodied世界模型研发团队》,创新性地构建了全球首个具有自主进化能力的多模态世界模型系统,让世界模型能够“自我学习”。 WOW嵌入式世界模型研发团队 该研究团队率先构建了嵌入式世界模型和视觉语言模型协同联动的多模态世界模型系统。具身世界模型负责物理推理和动态预测,而视觉语言模型负责多模态理解、长期任务规划、d 逻辑自我修正。两者共同形成了一个智能的、具体的学习循环:想象、测试、修改和重新想象。机器人不仅可以在头脑中“想象世界”,还可以在现实环境中通过“试错学习”形成因果理解,自主发展人类实体等“物理直觉”。 魔兽世界实体世界模型项目总监秦志远:当给机器人一个苹果,它能做什么?或许。你可以把一个苹果放在水槽里清洗,你可以想象把它放在微波炉里加热,或者你可以把苹果扔到地板上。 VLM(视觉语言模型)可以思考哪条路径是最好的,并且世界模型有望扩展该范围。但我们希望VLM(视觉语言模型)能够增加其深度并帮助我们做出更好的决策。通过不断地将VLM(视觉语言模型)引入世界模型,将世界模型引入VLM(视觉语言模型),像桌十这样的游戏来回传球的状态已经形成,而且越来越好。 除了多模态世界模型系统的内部循环机制外,北京仿人机器人创新中心还同步推出了首个嵌入式世界模型世界集成基准测试,构建了形成世界模型四大主要功能(识别理解、预测推理、决策规划、广义执行)的多维度评价体系,为世界模型的训练和迭代提供了外部支持。 魔兽世界体现世界模型项目总监秦志远:世界模型不仅仅是用来生成视频的。更重要的是,世界模型可以与现实世界进行交互,形成从想象推论到在现实世界中执行行动的反馈闭环。这使得世界模型能够变得更好,在现实世界场景上不断进化、改进。 (总部报告(王胜东、袁嘉怡、张一郎)
喜欢 (0) or 分享 (0)
发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论