(资料图)
谷歌在机器人领域的最新创新——Robotics Transformer 2 (RT-2),是一种突破性的视觉-语言-动作 (VLA) 模型,它让我们离乐于助人的机器人的未来更近了。
RT-2 是一种基于 Transformer 的模型,已接受来自网络的文本和图像的训练,使其能够直接输出机器人动作,有效地使其能够成为“会说话的机器人”。
开发能够在多样化和陌生的环境中处理复杂、抽象任务的机器人一直是一项具有挑战性的工作。与聊天机器人不同,机器人需要现实世界的基础并了解其能力。
传统上,这意味着需要在数十亿个数据点上训练机器人,这对于大多数创新者来说既耗时又不切实际。
RT-2 采用了一种新方法来解决这个问题。它通过使单个模型能够执行复杂的推理和机器人动作,提高了机器人的推理能力,并消除了对复杂系统堆栈的需求。
即使只有少量的机器人训练数据,RT-2 也可以将其语言和视觉训练数据中的知识转移到指导机器人动作,甚至是从未明确训练过的任务。
RT-2 的好处是显着的。它使机器人能够快速适应新的情况和环境,在训练数据中执行与之前的模型一样的任务,并在未见过的场景中显着优于它们。
此外,RT-2 将学到的概念转移到新情况的能力使机器人更接近于像人类一样学习和适应。
这一进步不仅标志着人工智能和机器人技术的融合,而且还为开发更通用的机器人带来了巨大的希望,这些机器人可以更好地服务于以人为中心的环境。
虽然要充分发挥有用机器人的潜力还有很多工作要做,但 RT-2 让我们看到了机器人技术令人兴奋的未来——机器人可以从不同的数据源中学习并处理广泛的任务,为我们带来更接近先进且有能力的机器人助手的世界。
关键词: