TraceVLA: Visuele Trace Prompting Verbetert Ruimtelijk-Temporale Bewustwording voor Algemene Robotbeleidsregels
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
December 13, 2024
Auteurs: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
cs.AI
Samenvatting
Hoewel grote visie-taal-actie (VLA) modellen die vooraf zijn getraind op uitgebreide robotdatasets veelbelovende generalistische beleidslijnen bieden voor robotica leren, hebben ze nog steeds moeite met ruimtelijk-temporele dynamiek in interactieve robotica, waardoor ze minder effectief zijn in het omgaan met complexe taken, zoals manipulatie. In dit werk introduceren we visuele spoorprompting, een eenvoudige maar effectieve benadering om de ruimtelijk-temporele bewustwording van VLA-modellen voor actievoorspelling te vergemakkelijken door visueel staat-actie trajecten te coderen. We ontwikkelen een nieuw TraceVLA-model door OpenVLA fijn af te stemmen op onze eigen verzamelde dataset van 150K robotmanipulatietrajecten met behulp van visuele spoorprompting. Evaluaties van TraceVLA over 137 configuraties in SimplerEnv en 4 taken op een fysieke WidowX-robot tonen state-of-the-art prestaties aan, waarbij TraceVLA OpenVLA met 10% overtreft op SimplerEnv en 3,5x op echte robot taken, en robuuste generalisatie vertoont over diverse belichamingen en scenario's. Om de effectiviteit en algemeenheid van onze methode verder te valideren, presenteren we een compact VLA-model gebaseerd op 4B Phi-3-Vision, vooraf getraind op de Open-X-Embodiment en fijn afgestemd op onze dataset, dat de 7B OpenVLA-baseline evenaart en de inferentie-efficiëntie aanzienlijk verbetert.
English
Although large vision-language-action (VLA) models pretrained on extensive
robot datasets offer promising generalist policies for robotic learning, they
still struggle with spatial-temporal dynamics in interactive robotics, making
them less effective in handling complex tasks, such as manipulation. In this
work, we introduce visual trace prompting, a simple yet effective approach to
facilitate VLA models' spatial-temporal awareness for action prediction by
encoding state-action trajectories visually. We develop a new TraceVLA model by
finetuning OpenVLA on our own collected dataset of 150K robot manipulation
trajectories using visual trace prompting. Evaluations of TraceVLA across 137
configurations in SimplerEnv and 4 tasks on a physical WidowX robot demonstrate
state-of-the-art performance, outperforming OpenVLA by 10% on SimplerEnv and
3.5x on real-robot tasks and exhibiting robust generalization across diverse
embodiments and scenarios. To further validate the effectiveness and generality
of our method, we present a compact VLA model based on 4B Phi-3-Vision,
pretrained on the Open-X-Embodiment and finetuned on our dataset, rivals the 7B
OpenVLA baseline while significantly improving inference efficiency.