VoxPoser: 言語モデルを用いたロボット操作のための合成可能な3D価値マップ
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
July 12, 2023
著者: Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei
cs.AI
要旨
大規模言語モデル(LLM)は、ロボット操作のための推論と計画として抽出可能な実用的な知識を豊富に持つことが示されています。進展があるにもかかわらず、ほとんどの手法は環境との物理的相互作用を実行するために事前定義されたモーションプリミティブに依存しており、これが主要なボトルネックとなっています。本研究では、オープンセットの指示とオープンセットの物体が与えられた場合に、多様な操作タスクのためのロボット軌道、すなわち6自由度エンドエフェクタのウェイポイントの密なシーケンスを合成することを目指します。これを実現するために、まずLLMが自由形式の言語指示に基づいてアフォーダンスと制約を推論する能力に優れていることを観察しました。さらに重要なことに、LLMのコード記述能力を活用することで、視覚言語モデル(VLM)と相互作用して3D価値マップを構成し、エージェントの観測空間に知識を接地することができます。構成された価値マップは、モデルベースの計画フレームワークで使用され、動的な摂動に対するロバスト性を持った閉ループロボット軌道をゼロショットで合成します。さらに、提案されたフレームワークが、接触の多い相互作用を含むシーンのダイナミクスモデルを効率的に学習することで、オンライン経験からどのように利益を得られるかを示します。シミュレーション環境と実ロボット環境の両方で提案手法の大規模な研究を行い、自由形式の自然言語で指定された多様な日常的な操作タスクを実行する能力を実証します。プロジェクトウェブサイト: https://voxposer.github.io
English
Large language models (LLMs) are shown to possess a wealth of actionable
knowledge that can be extracted for robot manipulation in the form of reasoning
and planning. Despite the progress, most still rely on pre-defined motion
primitives to carry out the physical interactions with the environment, which
remains a major bottleneck. In this work, we aim to synthesize robot
trajectories, i.e., a dense sequence of 6-DoF end-effector waypoints, for a
large variety of manipulation tasks given an open-set of instructions and an
open-set of objects. We achieve this by first observing that LLMs excel at
inferring affordances and constraints given a free-form language instruction.
More importantly, by leveraging their code-writing capabilities, they can
interact with a visual-language model (VLM) to compose 3D value maps to ground
the knowledge into the observation space of the agent. The composed value maps
are then used in a model-based planning framework to zero-shot synthesize
closed-loop robot trajectories with robustness to dynamic perturbations. We
further demonstrate how the proposed framework can benefit from online
experiences by efficiently learning a dynamics model for scenes that involve
contact-rich interactions. We present a large-scale study of the proposed
method in both simulated and real-robot environments, showcasing the ability to
perform a large variety of everyday manipulation tasks specified in free-form
natural language. Project website: https://voxposer.github.io