TraceVLA: La Promoción Visual de Rastreo Mejora la Conciencia Espacio-Temporal para Políticas Robóticas Generalistas
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
December 13, 2024
Autores: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
cs.AI
Resumen
Aunque los modelos grandes de visión-lenguaje-acción (VLA) preentrenados en extensos conjuntos de datos de robots ofrecen políticas generalistas prometedoras para el aprendizaje robótico, aún enfrentan dificultades con la dinámica espacio-temporal en la robótica interactiva, lo que los hace menos efectivos para manejar tareas complejas, como la manipulación. En este trabajo, introducimos la inducción visual de trazas, un enfoque simple pero efectivo para facilitar la conciencia espacio-temporal de los modelos VLA para la predicción de acciones mediante la codificación visual de trayectorias estado-acción. Desarrollamos un nuevo modelo TraceVLA mediante el ajuste fino de OpenVLA en nuestro propio conjunto de datos recopilado de 150K trayectorias de manipulación de robots utilizando la inducción visual de trazas. Las evaluaciones de TraceVLA en 137 configuraciones en SimplerEnv y 4 tareas en un robot físico WidowX demuestran un rendimiento de vanguardia, superando a OpenVLA en un 10% en SimplerEnv y 3.5 veces en tareas de robots reales, mostrando una generalización robusta en diversos cuerpos y escenarios. Para validar aún más la efectividad y generalidad de nuestro método, presentamos un modelo VLA compacto basado en 4B Phi-3-Vision, preentrenado en Open-X-Embodiment y ajustado fino en nuestro conjunto de datos, que rivaliza con el modelo base 7B OpenVLA mientras mejora significativamente la eficiencia de inferencia.
English
Although large vision-language-action (VLA) models pretrained on extensive
robot datasets offer promising generalist policies for robotic learning, they
still struggle with spatial-temporal dynamics in interactive robotics, making
them less effective in handling complex tasks, such as manipulation. In this
work, we introduce visual trace prompting, a simple yet effective approach to
facilitate VLA models' spatial-temporal awareness for action prediction by
encoding state-action trajectories visually. We develop a new TraceVLA model by
finetuning OpenVLA on our own collected dataset of 150K robot manipulation
trajectories using visual trace prompting. Evaluations of TraceVLA across 137
configurations in SimplerEnv and 4 tasks on a physical WidowX robot demonstrate
state-of-the-art performance, outperforming OpenVLA by 10% on SimplerEnv and
3.5x on real-robot tasks and exhibiting robust generalization across diverse
embodiments and scenarios. To further validate the effectiveness and generality
of our method, we present a compact VLA model based on 4B Phi-3-Vision,
pretrained on the Open-X-Embodiment and finetuned on our dataset, rivals the 7B
OpenVLA baseline while significantly improving inference efficiency.Summary
AI-Generated Summary