AR-VLA: Especialista em Ação Verdadeiramente Autorregressivo para Modelos Visão-Linguagem-Ação

Resumo

Propomos um Expert em Ação autoregressivo (AR) independente que gera ações como uma sequência causal contínua, condicionado a prefixos visão-linguagem atualizáveis. Em contraste com modelos existentes de Visão-Linguagem-Ação (VLA) e políticas de difusão que redefinem o contexto temporal a cada nova observação e preveem ações de forma reativa, nosso Expert em Ação mantém seu próprio histórico por meio de uma memória de longa duração, sendo inerentemente ciente do contexto. Essa estrutura aborda a incompatibilidade de frequência entre controle rápido e raciocínio lento, permitindo um pré-treinamento independente eficiente da sintaxe cinemática e uma integração modular com backbones pesados de percepção, garantindo naturalmente a geração de ações espacial e temporalmente consistente entre quadros. Para sincronizar essas modalidades híbridas assíncronas V-L-A, utilizamos um mecanismo de reancoragem que considera matematicamente a defasagem perceptual durante o treinamento e a inferência. Experimentos em tarefas de manipulação simuladas e com robôs reais demonstram que o método proposto pode substituir efetivamente as cabeças de ação tradicionais baseadas em blocos, tanto para políticas especialistas quanto generalistas. O AR-VLA exibe consciência histórica superior e trajetórias de ação substancialmente mais suaves, mantendo ou superando as taxas de sucesso de tarefas das VLAs reativas de última geração. No geral, nosso trabalho introduz um esquema de geração de ações escalável e ciente do contexto, que fornece uma base estrutural robusta para o treinamento de políticas robóticas eficazes. Código e vídeos disponíveis em https://arvla.insait.ai.

English

We propose a standalone autoregressive (AR) Action Expert that generates actions as a continuous causal sequence while conditioning on refreshable vision-language prefixes. In contrast to existing Vision-Language-Action (VLA) models and diffusion policies that reset temporal context with each new observation and predict actions reactively, our Action Expert maintains its own history through a long-lived memory and is inherently context-aware. This structure addresses the frequency mismatch between fast control and slow reasoning, enabling efficient independent pretraining of kinematic syntax and modular integration with heavy perception backbones, naturally ensuring spatio-temporally consistent action generation across frames. To synchronize these asynchronous hybrid V-L-A modalities, we utilize a re-anchoring mechanism that mathematically accounts for perception staleness during both training and inference. Experiments on simulated and real-robot manipulation tasks demonstrate that the proposed method can effectively replace traditional chunk-based action heads for both specialist and generalist policies. AR-VLA exhibits superior history awareness and substantially smoother action trajectories while maintaining or exceeding the task success rates of state-of-the-art reactive VLAs. Overall, our work introduces a scalable, context-aware action generation schema that provides a robust structural foundation for training effective robotic policies. Code and Videos available at https://arvla.insait.ai