AR-VLA: Настоящий авторегрессионный эксперт действий для моделей видения, языка и действий

Аннотация

Мы предлагаем автономного авторегрессионного (AR) Эксперта действий, который генерирует действия в виде непрерывной каузальной последовательности, при этом обусловливаясь обновляемыми визуально-языковыми префиксами. В отличие от существующих моделей Vision-Language-Action (VLA) и диффузионных политик, которые сбрасывают временной контекст при каждом новом наблюдении и предсказывают действия реактивно, наш Эксперт действий поддерживает собственную историю через долгоживущую память и по своей сути учитывает контекст. Такая структура устраняет несоответствие частот между быстрым управлением и медленным рассуждением, обеспечивая эффективное независимое предварительное обучение кинематического синтаксиса и модульную интеграцию с тяжёлыми перцептивными магистралями, естественным образом гарантируя пространственно-временно согласованную генерацию действий между кадрами. Для синхронизации этих асинхронных гибридных визуально-языково-моторных (V-L-A) модальностей мы используем механизм повторной привязки, который математически учитывает устаревание восприятия как при обучении, так и при выводе. Эксперименты на симулированных и реальных задачах манипуляции роботом показывают, что предложенный метод может эффективно заменить традиционные блочные головки действий как для специализированных, так и для обобщённых политик. AR-VLA демонстрирует превосходную осведомлённость о истории и значительно более плавные траектории действий, сохраняя или превосходя показатели успешности задач современных реактивных VLA. В целом, наша работа представляет масштабируемую, учитывающую контекст схему генерации действий, которая обеспечивает надёжную структурную основу для обучения эффективных роботизированных политик. Код и видео доступны по адресу https://arvla.insait.ai.

English

We propose a standalone autoregressive (AR) Action Expert that generates actions as a continuous causal sequence while conditioning on refreshable vision-language prefixes. In contrast to existing Vision-Language-Action (VLA) models and diffusion policies that reset temporal context with each new observation and predict actions reactively, our Action Expert maintains its own history through a long-lived memory and is inherently context-aware. This structure addresses the frequency mismatch between fast control and slow reasoning, enabling efficient independent pretraining of kinematic syntax and modular integration with heavy perception backbones, naturally ensuring spatio-temporally consistent action generation across frames. To synchronize these asynchronous hybrid V-L-A modalities, we utilize a re-anchoring mechanism that mathematically accounts for perception staleness during both training and inference. Experiments on simulated and real-robot manipulation tasks demonstrate that the proposed method can effectively replace traditional chunk-based action heads for both specialist and generalist policies. AR-VLA exhibits superior history awareness and substantially smoother action trajectories while maintaining or exceeding the task success rates of state-of-the-art reactive VLAs. Overall, our work introduces a scalable, context-aware action generation schema that provides a robust structural foundation for training effective robotic policies. Code and Videos available at https://arvla.insait.ai