TraceVLA: Визуальное трассирование стимулирует пространственно-временное восприятие для общих робототехнических политик
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
December 13, 2024
Авторы: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
cs.AI
Аннотация
Хотя крупные модели видео-языкового-действия (VLA), предобученные на обширных робототехнических наборах данных, предлагают многообещающие общие политики для обучения роботов, они все еще испытывают трудности с пространственно-временной динамикой в интерактивной робототехнике, что делает их менее эффективными в решении сложных задач, таких как манипуляции. В данной работе мы представляем метод визуального подсказывания следа, простой, но эффективный подход для повышения пространственно-временного осознания моделей VLA для прогнозирования действий путем визуального кодирования траекторий состояний-действий. Мы разработали новую модель TraceVLA, донастраивая OpenVLA на нашем собственном собранном наборе данных из 150 тыс. траекторий манипуляций роботов с использованием визуального подсказывания следа. Оценки TraceVLA на 137 конфигурациях в SimplerEnv и 4 задачах на физическом роботе WidowX демонстрируют передовую производительность, превосходя OpenVLA на 10% в SimplerEnv и в 3,5 раза в задачах на реальном роботе, проявляя устойчивую обобщаемость на различные воплощения и сценарии. Для дальнейшей проверки эффективности и общности нашего метода мы представляем компактную модель VLA на основе 4B Phi-3-Vision, предобученную на Open-X-Embodiment и донастроенную на нашем наборе данных, которая не уступает базовой модели OpenVLA на 7B, при этом значительно повышая эффективность вывода.
English
Although large vision-language-action (VLA) models pretrained on extensive
robot datasets offer promising generalist policies for robotic learning, they
still struggle with spatial-temporal dynamics in interactive robotics, making
them less effective in handling complex tasks, such as manipulation. In this
work, we introduce visual trace prompting, a simple yet effective approach to
facilitate VLA models' spatial-temporal awareness for action prediction by
encoding state-action trajectories visually. We develop a new TraceVLA model by
finetuning OpenVLA on our own collected dataset of 150K robot manipulation
trajectories using visual trace prompting. Evaluations of TraceVLA across 137
configurations in SimplerEnv and 4 tasks on a physical WidowX robot demonstrate
state-of-the-art performance, outperforming OpenVLA by 10% on SimplerEnv and
3.5x on real-robot tasks and exhibiting robust generalization across diverse
embodiments and scenarios. To further validate the effectiveness and generality
of our method, we present a compact VLA model based on 4B Phi-3-Vision,
pretrained on the Open-X-Embodiment and finetuned on our dataset, rivals the 7B
OpenVLA baseline while significantly improving inference efficiency.