ACG: Guía de Coherencia de Acciones para Modelos VLA Basados en Flujo
ACG: Action Coherence Guidance for Flow-based VLA models
October 25, 2025
Autores: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI
Resumen
Los modelos de difusión y emparejamiento de flujo han surgido como políticas robóticas potentes, permitiendo que los modelos Visión-Lenguaje-Acción (VLA) generalicen en diversas escenas e instrucciones. Sin embargo, cuando se entrenan mediante aprendizaje por imitación, su alta capacidad generativa los hace sensibles al ruido en las demostraciones humanas: tirones, pausas y vibraciones que reducen la coherencia de las acciones. Una coherencia de acciones reducida provoca inestabilidad y deriva de la trayectoria durante la implementación, fallos que son catastróficos en la manipulación de grano fino donde la precisión es crucial. En este artículo, presentamos la Guía de Coherencia de Acciones (ACG) para modelos VLA, un algoritmo de guía en tiempo de prueba que no requiere entrenamiento y que mejora la coherencia de las acciones, logrando así ganancias de rendimiento. Evaluado en RoboCasa, DexMimicGen y tareas reales SO-101, ACG mejora consistentemente la coherencia de las acciones e incrementa las tasas de éxito en diversas tareas de manipulación. El código y la página del proyecto están disponibles en https://github.com/DAVIAN-Robotics/ACG y https://DAVIAN-Robotics.github.io/ACG, respectivamente.
English
Diffusion and flow matching models have emerged as powerful robot policies,
enabling Vision-Language-Action (VLA) models to generalize across diverse
scenes and instructions. Yet, when trained via imitation learning, their high
generative capacity makes them sensitive to noise in human demonstrations:
jerks, pauses, and jitter which reduce action coherence. Reduced action
coherence causes instability and trajectory drift during deployment, failures
that are catastrophic in fine-grained manipulation where precision is crucial.
In this paper, we present Action Coherence Guidance (ACG) for VLA models, a
training-free test-time guidance algorithm that improves action coherence and
thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and
real-world SO-101 tasks, ACG consistently improves action coherence and boosts
success rates across diverse manipulation tasks. Code and project page are
available at https://github.com/DAVIAN-Robotics/ACG and
https://DAVIAN-Robotics.github.io/ACG , respectively.