ACG: Guida alla Coerenza dell'Azione per modelli VLA basati sul flusso
ACG: Action Coherence Guidance for Flow-based VLA models
October 25, 2025
Autori: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI
Abstract
I modelli di diffusione e di flusso corrispondente sono emersi come potenti politiche robotiche, consentendo ai modelli Visione-Linguaggio-Azione (VLA) di generalizzare attraverso scenari e istruzioni diversi. Tuttavia, quando addestrati tramite apprendimento per imitazione, la loro elevata capacità generativa li rende sensibili al rumore presente nelle dimostrazioni umane: scatti, pause e tremolii che riducono la coerenza delle azioni. Una ridotta coerenza delle azioni causa instabilità e deriva della traiettoria durante l'implementazione, guasti che sono catastrofici nella manipolazione di precisione dove la precisione è cruciale. In questo articolo, presentiamo Action Coherence Guidance (ACG) per modelli VLA, un algoritmo di guida in fase di test che non richiede addestramento e che migliora la coerenza delle azioni, producendo così guadagni prestazionali. Valutato su RoboCasa, DexMimicGen e su compiti reali SO-101, ACG migliora costantemente la coerenza delle azioni e aumenta i tassi di successo in vari compiti di manipolazione. Il codice e la pagina del progetto sono disponibili rispettivamente su https://github.com/DAVIAN-Robotics/ACG e https://DAVIAN-Robotics.github.io/ACG.
English
Diffusion and flow matching models have emerged as powerful robot policies,
enabling Vision-Language-Action (VLA) models to generalize across diverse
scenes and instructions. Yet, when trained via imitation learning, their high
generative capacity makes them sensitive to noise in human demonstrations:
jerks, pauses, and jitter which reduce action coherence. Reduced action
coherence causes instability and trajectory drift during deployment, failures
that are catastrophic in fine-grained manipulation where precision is crucial.
In this paper, we present Action Coherence Guidance (ACG) for VLA models, a
training-free test-time guidance algorithm that improves action coherence and
thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and
real-world SO-101 tasks, ACG consistently improves action coherence and boosts
success rates across diverse manipulation tasks. Code and project page are
available at https://github.com/DAVIAN-Robotics/ACG and
https://DAVIAN-Robotics.github.io/ACG , respectively.