ACG: Actiecoherentiesturing voor stroomgebaseerde VLA-modellen
ACG: Action Coherence Guidance for Flow-based VLA models
October 25, 2025
Auteurs: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI
Samenvatting
Diffusie- en flow matching-modellen zijn opgekomen als krachtige robotbeleidsmodellen,
waardoor Vision-Language-Action (VLA)-modellen kunnen generaliseren over diverse
scènes en instructies. Wanneer ze echter via imitatieleren worden getraind, maakt hun hoge
generatieve capaciteit ze gevoelig voor ruis in menselijke demonstraties:
schokken, pauzes en trillingen die de actiecoherentie verminderen. Verminderde actiecoherentie
veroorzaakt instabiliteit en trajectdrift tijdens de inzet, fouten die catastrofaal zijn
bij fijnmazige manipulatie waar precisie cruciaal is.
In dit artikel presenteren we Action Coherence Guidance (ACG) voor VLA-modellen, een
trainingsvrij testtijd-begeleidingsalgoritme dat de actiecoherentie verbetert en
daardoor prestatieverbeteringen oplevert. Geëvalueerd op RoboCasa, DexMimicGen en
real-world SO-101-taken, verbetert ACG consistent de actiecoherentie en verhoogt het
de slagingspercentages bij diverse manipulatietaken. Code en projectpagina zijn
beschikbaar op respectievelijk https://github.com/DAVIAN-Robotics/ACG en
https://DAVIAN-Robotics.github.io/ACG.
English
Diffusion and flow matching models have emerged as powerful robot policies,
enabling Vision-Language-Action (VLA) models to generalize across diverse
scenes and instructions. Yet, when trained via imitation learning, their high
generative capacity makes them sensitive to noise in human demonstrations:
jerks, pauses, and jitter which reduce action coherence. Reduced action
coherence causes instability and trajectory drift during deployment, failures
that are catastrophic in fine-grained manipulation where precision is crucial.
In this paper, we present Action Coherence Guidance (ACG) for VLA models, a
training-free test-time guidance algorithm that improves action coherence and
thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and
real-world SO-101 tasks, ACG consistently improves action coherence and boosts
success rates across diverse manipulation tasks. Code and project page are
available at https://github.com/DAVIAN-Robotics/ACG and
https://DAVIAN-Robotics.github.io/ACG , respectively.