ChatPaper.aiChatPaper

ACG: Guía de Coherencia de Acciones para Modelos VLA Basados en Flujo

ACG: Action Coherence Guidance for Flow-based VLA models

October 25, 2025
Autores: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI

Resumen

Los modelos de difusión y emparejamiento de flujo han surgido como políticas robóticas potentes, permitiendo que los modelos Visión-Lenguaje-Acción (VLA) generalicen en diversas escenas e instrucciones. Sin embargo, cuando se entrenan mediante aprendizaje por imitación, su alta capacidad generativa los hace sensibles al ruido en las demostraciones humanas: tirones, pausas y vibraciones que reducen la coherencia de las acciones. Una coherencia de acciones reducida provoca inestabilidad y deriva de la trayectoria durante la implementación, fallos que son catastróficos en la manipulación de grano fino donde la precisión es crucial. En este artículo, presentamos la Guía de Coherencia de Acciones (ACG) para modelos VLA, un algoritmo de guía en tiempo de prueba que no requiere entrenamiento y que mejora la coherencia de las acciones, logrando así ganancias de rendimiento. Evaluado en RoboCasa, DexMimicGen y tareas reales SO-101, ACG mejora consistentemente la coherencia de las acciones e incrementa las tasas de éxito en diversas tareas de manipulación. El código y la página del proyecto están disponibles en https://github.com/DAVIAN-Robotics/ACG y https://DAVIAN-Robotics.github.io/ACG, respectivamente.
English
Diffusion and flow matching models have emerged as powerful robot policies, enabling Vision-Language-Action (VLA) models to generalize across diverse scenes and instructions. Yet, when trained via imitation learning, their high generative capacity makes them sensitive to noise in human demonstrations: jerks, pauses, and jitter which reduce action coherence. Reduced action coherence causes instability and trajectory drift during deployment, failures that are catastrophic in fine-grained manipulation where precision is crucial. In this paper, we present Action Coherence Guidance (ACG) for VLA models, a training-free test-time guidance algorithm that improves action coherence and thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and real-world SO-101 tasks, ACG consistently improves action coherence and boosts success rates across diverse manipulation tasks. Code and project page are available at https://github.com/DAVIAN-Robotics/ACG and https://DAVIAN-Robotics.github.io/ACG , respectively.
PDF362December 31, 2025