AR-VLA : Véritable Expert d'Action Autorégressif pour les Modèles Vision-Langage-Action

Résumé

Nous proposons un Expert d'Action autorégressif (AR) autonome qui génère des actions sous forme de séquence causale continue tout en se conditionnant sur des préfixes vision-langage actualisables. Contrairement aux modèles Vision-Langage-Action (VLA) existants et aux politiques de diffusion qui réinitialisent le contexte temporel à chaque nouvelle observation et prédisent les actions de manière réactive, notre Expert d'Action maintient son propre historique grâce à une mémoire à long terme et est intrinsèquement sensible au contexte. Cette structure résout le décalage de fréquence entre le contrôle rapide et le raisonnement lent, permettant un pré-entraînement indépendant efficace de la syntaxe cinématique et une intégration modulaire avec des architectures de perception lourdes, garantissant naturellement une génération d'actions cohérente spatio-temporellement à travers les images. Pour synchroniser ces modalités hybrides V-L-A asynchrones, nous utilisons un mécanisme de réancrage qui tient mathématiquement compte du décalage de perception pendant l'entraînement et l'inférence. Des expériences sur des tâches de manipulation simulées et avec des robots réels montrent que la méthode proposée peut remplacer efficacement les têtes d'action traditionnelles basées sur des chunks pour les politiques spécialistes et généralistes. AR-VLA présente une conscience supérieure de l'historique et des trajectoires d'action considérablement plus lisses tout en maintenant ou dépassant les taux de réussite des tâches des VLA réactifs de pointe. Dans l'ensemble, notre travail introduit un schéma de génération d'actions scalable et sensible au contexte qui fournit une base structurelle robuste pour l'entraînement de politiques robotiques efficaces. Code et vidéos disponibles sur https://arvla.insait.ai

English

We propose a standalone autoregressive (AR) Action Expert that generates actions as a continuous causal sequence while conditioning on refreshable vision-language prefixes. In contrast to existing Vision-Language-Action (VLA) models and diffusion policies that reset temporal context with each new observation and predict actions reactively, our Action Expert maintains its own history through a long-lived memory and is inherently context-aware. This structure addresses the frequency mismatch between fast control and slow reasoning, enabling efficient independent pretraining of kinematic syntax and modular integration with heavy perception backbones, naturally ensuring spatio-temporally consistent action generation across frames. To synchronize these asynchronous hybrid V-L-A modalities, we utilize a re-anchoring mechanism that mathematically accounts for perception staleness during both training and inference. Experiments on simulated and real-robot manipulation tasks demonstrate that the proposed method can effectively replace traditional chunk-based action heads for both specialist and generalist policies. AR-VLA exhibits superior history awareness and substantially smoother action trajectories while maintaining or exceeding the task success rates of state-of-the-art reactive VLAs. Overall, our work introduces a scalable, context-aware action generation schema that provides a robust structural foundation for training effective robotic policies. Code and Videos available at https://arvla.insait.ai