AR-VLA: Verdadero Experto en Acciones Autorregresivo para Modelos de Visión-Lenguaje-Acción

Resumen

Proponemos un Experto en Acciones autorregresivo (AR) independiente que genera acciones como una secuencia causal continua mientras se condiciona a prefijos de visión-lenguaje actualizables. En contraste con los modelos existentes de Visión-Lenguaje-Acción (VLA) y las políticas de difusión que restablecen el contexto temporal con cada nueva observación y predicen acciones de forma reactiva, nuestro Experto en Acciones mantiene su propio historial a través de una memoria de larga duración y es inherentemente consciente del contexto. Esta estructura aborda el desajuste de frecuencia entre el control rápido y el razonamiento lento, permitiendo un preentrenamiento independiente y eficiente de la sintaxis cinemática y una integración modular con backbones de percepción pesados, asegurando de forma natural una generación de acciones espacio-temporalmente consistente entre los fotogramas. Para sincronizar estas modalidades asíncronas híbridas V-L-A, utilizamos un mecanismo de reanclaje que contabiliza matemáticamente el rezago de percepción tanto durante el entrenamiento como en la inferencia. Experimentos en tareas de manipulación con robots simulados y reales demuestran que el método propuesto puede reemplazar eficazmente los cabezales de acciones basados en fragmentos tradicionales tanto para políticas especialistas como generalistas. AR-VLA exhibe una conciencia de historial superior y trayectorias de acción sustancialmente más suaves, manteniendo o superando las tasas de éxito en las tareas de los VLA reactivos de última generación. En general, nuestro trabajo introduce un esquema escalable de generación de acciones consciente del contexto que proporciona una base estructural sólida para entrenar políticas robóticas efectivas. Código y videos disponibles en https://arvla.insait.ai

English

We propose a standalone autoregressive (AR) Action Expert that generates actions as a continuous causal sequence while conditioning on refreshable vision-language prefixes. In contrast to existing Vision-Language-Action (VLA) models and diffusion policies that reset temporal context with each new observation and predict actions reactively, our Action Expert maintains its own history through a long-lived memory and is inherently context-aware. This structure addresses the frequency mismatch between fast control and slow reasoning, enabling efficient independent pretraining of kinematic syntax and modular integration with heavy perception backbones, naturally ensuring spatio-temporally consistent action generation across frames. To synchronize these asynchronous hybrid V-L-A modalities, we utilize a re-anchoring mechanism that mathematically accounts for perception staleness during both training and inference. Experiments on simulated and real-robot manipulation tasks demonstrate that the proposed method can effectively replace traditional chunk-based action heads for both specialist and generalist policies. AR-VLA exhibits superior history awareness and substantially smoother action trajectories while maintaining or exceeding the task success rates of state-of-the-art reactive VLAs. Overall, our work introduces a scalable, context-aware action generation schema that provides a robust structural foundation for training effective robotic policies. Code and Videos available at https://arvla.insait.ai