TraceVLA: Visuelle Trace-Prompting verbessert räumlich-zeitliches Bewusstsein für allgemeine robotische Richtlinien
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
December 13, 2024
Autoren: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
cs.AI
Zusammenfassung
Obwohl große Vision-Language-Action (VLA)-Modelle, die auf umfangreichen Roboterdatensätzen vortrainiert sind, vielversprechende generalistische Richtlinien für das robotische Lernen bieten, haben sie immer noch Schwierigkeiten mit räumlich-zeitlichen Dynamiken in der interaktiven Robotik, was sie weniger effektiv bei der Bewältigung komplexer Aufgaben wie Manipulation macht. In dieser Arbeit stellen wir visuelle Spur-Anregung vor, einen einfachen, aber effektiven Ansatz, um das räumlich-zeitliche Bewusstsein von VLA-Modellen für die Aktionsvorhersage zu erleichtern, indem Zustands-Aktions-Trajektorien visuell codiert werden. Wir entwickeln ein neues TraceVLA-Modell durch Feinabstimmung von OpenVLA auf unserem eigenen gesammelten Datensatz von 150K Roboter-Manipulationstrajektorien unter Verwendung visueller Spur-Anregung. Evaluierungen von TraceVLA über 137 Konfigurationen in SimplerEnv und 4 Aufgaben an einem physischen WidowX-Roboter zeigen eine Spitzenleistung, die OpenVLA um 10% in SimplerEnv und 3,5-fach in Echtroboteraufgaben übertrifft und eine robuste Verallgemeinerung über verschiedene Verkörperungen und Szenarien aufweist. Um die Wirksamkeit und Allgemeingültigkeit unserer Methode weiter zu validieren, präsentieren wir ein kompaktes VLA-Modell basierend auf 4B Phi-3-Vision, vortrainiert auf der Open-X-Verkörperung und feinabgestimmt auf unserem Datensatz, das dem 7B OpenVLA-Benchmark ebenbürtig ist und die Inferenzeffizienz signifikant verbessert.
English
Although large vision-language-action (VLA) models pretrained on extensive
robot datasets offer promising generalist policies for robotic learning, they
still struggle with spatial-temporal dynamics in interactive robotics, making
them less effective in handling complex tasks, such as manipulation. In this
work, we introduce visual trace prompting, a simple yet effective approach to
facilitate VLA models' spatial-temporal awareness for action prediction by
encoding state-action trajectories visually. We develop a new TraceVLA model by
finetuning OpenVLA on our own collected dataset of 150K robot manipulation
trajectories using visual trace prompting. Evaluations of TraceVLA across 137
configurations in SimplerEnv and 4 tasks on a physical WidowX robot demonstrate
state-of-the-art performance, outperforming OpenVLA by 10% on SimplerEnv and
3.5x on real-robot tasks and exhibiting robust generalization across diverse
embodiments and scenarios. To further validate the effectiveness and generality
of our method, we present a compact VLA model based on 4B Phi-3-Vision,
pretrained on the Open-X-Embodiment and finetuned on our dataset, rivals the 7B
OpenVLA baseline while significantly improving inference efficiency.Summary
AI-Generated Summary