AR-VLA: Echte autoregressieve actie-expert voor visie-taal-actiemodellen

Samenvatting

Wij stellen een op zichzelf staande autoregressieve (AR) Actie-Expert voor die acties genereert als een continue causale reeks, terwijl deze conditieert op verversbare visie-taalprefixen. In tegenstelling tot bestaande Visie-Taal-Actie (VLA)-modellen en diffusiebeleid die de temporele context bij elke nieuwe waarneming resetten en reactief acties voorspellen, behoudt onze Actie-Expert een eigen geschiedenis via een langlevend geheugen en is inherent contextbewust. Deze structuur pakt de frequentie-mismatch aan tussen snelle aansturing en langzame redenering, maakt efficiënte onafhankelijke pretraining van kinematische syntaxis en modulaire integratie met zware perceptie-backbones mogelijk, en waarborgt op natuurlijke wijze ruimtelijk-temporeel consistente actiegeneratie over frames heen. Om deze asynchrone hybride V-T-A-modaliteiten te synchroniseren, maken we gebruik van een herverankeringsmechanisme dat wiskundig rekening houdt met perceptieveroudering tijdens zowel training als inferentie. Experimenten op gesimuleerde en echte robot-manipulatietaken tonen aan dat de voorgestelde methode effectief traditionele chunk-gebaseerde actiekoppen kan vervangen voor zowel specialistische als generalistische beleidsvormen. AR-VLA vertoont superieur geschiedenisbewustzijn en aanzienlijk vloeiendere actietrajecten, terwijl de taaksuccespercentages van state-of-the-art reactieve VLA's worden gehandhaafd of overtroffen. Samenvattend introduceert ons werk een schaalbaar, contextbewust schema voor actiegeneratie dat een robuuste structurele basis biedt voor het trainen van effectieve robotbeleidsvormen. Code en video's beschikbaar op https://arvla.insait.ai

English

We propose a standalone autoregressive (AR) Action Expert that generates actions as a continuous causal sequence while conditioning on refreshable vision-language prefixes. In contrast to existing Vision-Language-Action (VLA) models and diffusion policies that reset temporal context with each new observation and predict actions reactively, our Action Expert maintains its own history through a long-lived memory and is inherently context-aware. This structure addresses the frequency mismatch between fast control and slow reasoning, enabling efficient independent pretraining of kinematic syntax and modular integration with heavy perception backbones, naturally ensuring spatio-temporally consistent action generation across frames. To synchronize these asynchronous hybrid V-L-A modalities, we utilize a re-anchoring mechanism that mathematically accounts for perception staleness during both training and inference. Experiments on simulated and real-robot manipulation tasks demonstrate that the proposed method can effectively replace traditional chunk-based action heads for both specialist and generalist policies. AR-VLA exhibits superior history awareness and substantially smoother action trajectories while maintaining or exceeding the task success rates of state-of-the-art reactive VLAs. Overall, our work introduces a scalable, context-aware action generation schema that provides a robust structural foundation for training effective robotic policies. Code and Videos available at https://arvla.insait.ai