ACG : Guidage par Cohérence d'Action pour les modèles VLA basés sur les flux
ACG: Action Coherence Guidance for Flow-based VLA models
October 25, 2025
papers.authors: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI
papers.abstract
Les modèles de diffusion et d'appariement de flux sont apparus comme des politiques robotiques puissantes, permettant aux modèles Vision-Langage-Action (VLA) de généraliser à travers des scènes et des instructions diverses. Cependant, lorsqu'ils sont entraînés par apprentissage par imitation, leur forte capacité générative les rend sensibles au bruit présent dans les démonstrations humaines : saccades, pauses et tremblements qui réduisent la cohérence des actions. Cette réduction de cohérence actionnelle provoque une instabilité et une dérive de trajectoire lors du déploiement, des défaillances catastrophiques dans les manipulations fines où la précision est cruciale. Dans cet article, nous présentons l'Action Coherence Guidance (ACG) pour les modèles VLA, un algorithme de guidage à l'inférence qui améliore la cohérence des actions et génère ainsi des gains de performance, sans nécessiter de réentraînement. Évalué sur RoboCasa, DexMimicGen et des tâches réelles SO-101, ACG améliore constamment la cohérence actionnelle et augmente les taux de réussite sur diverses tâches de manipulation. Le code et la page du projet sont disponibles respectivement à l'adresse https://github.com/DAVIAN-Robotics/ACG et https://DAVIAN-Robotics.github.io/ACG.
English
Diffusion and flow matching models have emerged as powerful robot policies,
enabling Vision-Language-Action (VLA) models to generalize across diverse
scenes and instructions. Yet, when trained via imitation learning, their high
generative capacity makes them sensitive to noise in human demonstrations:
jerks, pauses, and jitter which reduce action coherence. Reduced action
coherence causes instability and trajectory drift during deployment, failures
that are catastrophic in fine-grained manipulation where precision is crucial.
In this paper, we present Action Coherence Guidance (ACG) for VLA models, a
training-free test-time guidance algorithm that improves action coherence and
thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and
real-world SO-101 tasks, ACG consistently improves action coherence and boosts
success rates across diverse manipulation tasks. Code and project page are
available at https://github.com/DAVIAN-Robotics/ACG and
https://DAVIAN-Robotics.github.io/ACG , respectively.