AR-VLA: Echter autoregressiver Aktionsexperte für Vision-Sprache-Aktion-Modelle

Zusammenfassung

Wir schlagen einen eigenständigen autoregressiven (AR) Action-Experten vor, der Aktionen als kontinuierliche kausale Sequenz unter Berücksichtigung aktualisierbarer Vision-Language-Präfixe erzeugt. Im Gegensatz zu bestehenden Vision-Language-Action (VLA)-Modellen und Diffusions-Policies, die den zeitlichen Kontext bei jeder neuen Beobachtung zurücksetzen und Aktionen reaktiv vorhersagen, verwaltet unser Action-Experte seine eigene Historie durch einen langlebigen Speicher und ist inhärent kontextbewusst. Diese Struktur adressiert die Frequenzinkongruenz zwischen schneller Steuerung und langsamer Schlussfolgerung, ermöglicht effizientes unabhängiges Vortraining der kinematischen Syntax sowie modulare Integration mit rechenintensiven Wahrnehmungs-Backbones und gewährleistet auf natürliche Weise räumlich-zeitlich konsistente Aktionsgenerierung über Frames hinweg. Um diese asynchronen hybriden V-L-A-Modalitäten zu synchronisieren, nutzen wir einen Neuverankerungsmechanismus, der die Veralterung der Wahrnehmung sowohl während des Trainings als auch der Inferenz mathematisch berücksichtigt. Experimente an simulierten und realen Roboter-Manipulationsaufgaben zeigen, dass die vorgeschlagene Methode traditionelle chunkbasierte Aktionsköpfe sowohl für spezialisierte als auch für generalistische Policies effektiv ersetzen kann. AR-VLA weist eine überlegene Historiebewusstheit und wesentlich glattere Aktionsverläufe auf, während die Aufgabenerfolgsraten der hochmodernen reaktiven VLAs beibehalten oder übertroffen werden. Insgesamt führt unsere Arbeit ein skalierbares, kontextbewusstes Aktionsgenerierungsschema ein, das eine robuste strukturelle Grundlage für das Training effektiver Roboter-Policies bietet. Code und Videos verfügbar unter https://arvla.insait.ai

English

We propose a standalone autoregressive (AR) Action Expert that generates actions as a continuous causal sequence while conditioning on refreshable vision-language prefixes. In contrast to existing Vision-Language-Action (VLA) models and diffusion policies that reset temporal context with each new observation and predict actions reactively, our Action Expert maintains its own history through a long-lived memory and is inherently context-aware. This structure addresses the frequency mismatch between fast control and slow reasoning, enabling efficient independent pretraining of kinematic syntax and modular integration with heavy perception backbones, naturally ensuring spatio-temporally consistent action generation across frames. To synchronize these asynchronous hybrid V-L-A modalities, we utilize a re-anchoring mechanism that mathematically accounts for perception staleness during both training and inference. Experiments on simulated and real-robot manipulation tasks demonstrate that the proposed method can effectively replace traditional chunk-based action heads for both specialist and generalist policies. AR-VLA exhibits superior history awareness and substantially smoother action trajectories while maintaining or exceeding the task success rates of state-of-the-art reactive VLAs. Overall, our work introduces a scalable, context-aware action generation schema that provides a robust structural foundation for training effective robotic policies. Code and Videos available at https://arvla.insait.ai