ACG: Action Coherence Guidance für flussbasierte VLA-Modelle
ACG: Action Coherence Guidance for Flow-based VLA models
October 25, 2025
papers.authors: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI
papers.abstract
Diffusions- und Flow-Matching-Modelle haben sich als leistungsstarke Robotik-Policies etabliert, die Vision-Language-Action (VLA)-Modelle in die Lage versetzen, über verschiedene Szenen und Anweisungen hinweg zu generalisieren. Bei Training durch Imitationslernen macht sie jedoch ihre hohe generative Kapazität anfällig für Rauschen in menschlichen Demonstrationen: Rucken, Pausen und Zittern, welche die Aktionskohärenz verringern. Geringere Aktionskohärenz verursacht Instabilität und Trajektoriendrift während des Einsatzes – Fehler, die bei feinmotorischen Manipulationsaufgaben, bei denen Präzision entscheidend ist, katastrophal sind. In diesem Beitrag stellen wir Action Coherence Guidance (ACG) für VLA-Modelle vor, einen trainierungsfreien Guidance-Algorithmus zur Testzeit, der die Aktionskohärenz verbessert und dadurch Leistungssteigerungen erzielt. Evaluierungen auf RoboCasa, DexMimicGen und realen SO-101-Aufgaben zeigen, dass ACG konsistent die Aktionskohärenz verbessert und die Erfolgsquoten über verschiedene Manipulationsaufgaben hinweg steigert. Code und Projektseite sind verfügbar unter https://github.com/DAVIAN-Robotics/ACG bzw. https://DAVIAN-Robotics.github.io/ACG.
English
Diffusion and flow matching models have emerged as powerful robot policies,
enabling Vision-Language-Action (VLA) models to generalize across diverse
scenes and instructions. Yet, when trained via imitation learning, their high
generative capacity makes them sensitive to noise in human demonstrations:
jerks, pauses, and jitter which reduce action coherence. Reduced action
coherence causes instability and trajectory drift during deployment, failures
that are catastrophic in fine-grained manipulation where precision is crucial.
In this paper, we present Action Coherence Guidance (ACG) for VLA models, a
training-free test-time guidance algorithm that improves action coherence and
thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and
real-world SO-101 tasks, ACG consistently improves action coherence and boosts
success rates across diverse manipulation tasks. Code and project page are
available at https://github.com/DAVIAN-Robotics/ACG and
https://DAVIAN-Robotics.github.io/ACG , respectively.