TraceVLA:ビジュアルトレースプロンプティングは、一般的なロボットポリシーの空間的時間的認識を向上させます。
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
December 13, 2024
著者: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
cs.AI
要旨
広範なロボットデータセットで事前学習された大規模なビジョン・言語・アクション(VLA)モデルは、ロボティクスの学習において有望な汎用ポリシーを提供しますが、対話型ロボティクスにおける空間的・時間的ダイナミクスには依然として苦労しており、操作などの複雑なタスクの処理には効果が限られています。本研究では、視覚的なトレースプロンプティングというシンプルかつ効果的なアプローチを導入し、状態-アクションの軌跡を視覚的にエンコードすることで、VLAモデルの空間的・時間的認識を促進する方法を提案します。私たちは、150Kのロボット操作軌跡を収集した独自のデータセットを用いて、視覚的なトレースプロンプティングを行い、新しいTraceVLAモデルを開発しました。SimplerEnvにおける137の構成と物理的なWidowXロボット上の4つのタスクを通じたTraceVLAの評価は、最先端のパフォーマンスを示し、SimplerEnvではOpenVLAを10%、実際のロボットタスクでは3.5倍上回り、多様な具現化とシナリオにわたる堅牢な汎化を示しました。さらに、効果と汎用性を検証するために、Open-X-Embodimentで事前学習された4B Phi-3-Visionに基づくコンパクトなVLAモデルを提案し、当社のデータセットで微調整することで、7BのOpenVLAベースラインに匹敵しながら推論効率を大幅に向上させました。
English
Although large vision-language-action (VLA) models pretrained on extensive
robot datasets offer promising generalist policies for robotic learning, they
still struggle with spatial-temporal dynamics in interactive robotics, making
them less effective in handling complex tasks, such as manipulation. In this
work, we introduce visual trace prompting, a simple yet effective approach to
facilitate VLA models' spatial-temporal awareness for action prediction by
encoding state-action trajectories visually. We develop a new TraceVLA model by
finetuning OpenVLA on our own collected dataset of 150K robot manipulation
trajectories using visual trace prompting. Evaluations of TraceVLA across 137
configurations in SimplerEnv and 4 tasks on a physical WidowX robot demonstrate
state-of-the-art performance, outperforming OpenVLA by 10% on SimplerEnv and
3.5x on real-robot tasks and exhibiting robust generalization across diverse
embodiments and scenarios. To further validate the effectiveness and generality
of our method, we present a compact VLA model based on 4B Phi-3-Vision,
pretrained on the Open-X-Embodiment and finetuned on our dataset, rivals the 7B
OpenVLA baseline while significantly improving inference efficiency.Summary
AI-Generated Summary