ChatPaper.aiChatPaper

TraceVLA : La visualisation des traces améliore la conscience spatiale-temporelle des politiques robotiques généralistes

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

December 13, 2024
Auteurs: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
cs.AI

Résumé

Bien que les grands modèles vision-langage-action (VLA) pré-entraînés sur de vastes ensembles de données robotiques offrent des politiques généralistes prometteuses pour l'apprentissage robotique, ils rencontrent encore des difficultés avec la dynamique spatiale-temporelle en robotique interactive, les rendant moins efficaces pour gérer des tâches complexes, telles que la manipulation. Dans ce travail, nous introduisons la stimulation visuelle des traces, une approche simple mais efficace pour faciliter la conscience spatiale-temporelle des modèles VLA pour la prédiction d'actions en encodant visuellement les trajectoires état-action. Nous développons un nouveau modèle TraceVLA en affinant OpenVLA sur notre propre ensemble de données collecté de 150K trajectoires de manipulation de robots en utilisant la stimulation visuelle des traces. Les évaluations de TraceVLA sur 137 configurations dans SimplerEnv et 4 tâches sur un robot physique WidowX démontrent des performances de pointe, surpassant OpenVLA de 10% sur SimplerEnv et 3,5 fois sur les tâches de robot réel, et montrant une généralisation robuste à travers diverses incarnations et scénarios. Pour valider davantage l'efficacité et la généralité de notre méthode, nous présentons un modèle VLA compact basé sur 4B Phi-3-Vision, pré-entraîné sur l'Open-X-Embodiment et affiné sur notre ensemble de données, rivalisant avec la référence 7B OpenVLA tout en améliorant significativement l'efficacité de l'inférence.
English
Although large vision-language-action (VLA) models pretrained on extensive robot datasets offer promising generalist policies for robotic learning, they still struggle with spatial-temporal dynamics in interactive robotics, making them less effective in handling complex tasks, such as manipulation. In this work, we introduce visual trace prompting, a simple yet effective approach to facilitate VLA models' spatial-temporal awareness for action prediction by encoding state-action trajectories visually. We develop a new TraceVLA model by finetuning OpenVLA on our own collected dataset of 150K robot manipulation trajectories using visual trace prompting. Evaluations of TraceVLA across 137 configurations in SimplerEnv and 4 tasks on a physical WidowX robot demonstrate state-of-the-art performance, outperforming OpenVLA by 10% on SimplerEnv and 3.5x on real-robot tasks and exhibiting robust generalization across diverse embodiments and scenarios. To further validate the effectiveness and generality of our method, we present a compact VLA model based on 4B Phi-3-Vision, pretrained on the Open-X-Embodiment and finetuned on our dataset, rivals the 7B OpenVLA baseline while significantly improving inference efficiency.

Summary

AI-Generated Summary

PDF22December 16, 2024