ChatPaper.aiChatPaper

ACG : Guidage par Cohérence d'Action pour les modèles VLA basés sur les flux

ACG: Action Coherence Guidance for Flow-based VLA models

October 25, 2025
papers.authors: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI

papers.abstract

Les modèles de diffusion et d'appariement de flux sont apparus comme des politiques robotiques puissantes, permettant aux modèles Vision-Langage-Action (VLA) de généraliser à travers des scènes et des instructions diverses. Cependant, lorsqu'ils sont entraînés par apprentissage par imitation, leur forte capacité générative les rend sensibles au bruit présent dans les démonstrations humaines : saccades, pauses et tremblements qui réduisent la cohérence des actions. Cette réduction de cohérence actionnelle provoque une instabilité et une dérive de trajectoire lors du déploiement, des défaillances catastrophiques dans les manipulations fines où la précision est cruciale. Dans cet article, nous présentons l'Action Coherence Guidance (ACG) pour les modèles VLA, un algorithme de guidage à l'inférence qui améliore la cohérence des actions et génère ainsi des gains de performance, sans nécessiter de réentraînement. Évalué sur RoboCasa, DexMimicGen et des tâches réelles SO-101, ACG améliore constamment la cohérence actionnelle et augmente les taux de réussite sur diverses tâches de manipulation. Le code et la page du projet sont disponibles respectivement à l'adresse https://github.com/DAVIAN-Robotics/ACG et https://DAVIAN-Robotics.github.io/ACG.
English
Diffusion and flow matching models have emerged as powerful robot policies, enabling Vision-Language-Action (VLA) models to generalize across diverse scenes and instructions. Yet, when trained via imitation learning, their high generative capacity makes them sensitive to noise in human demonstrations: jerks, pauses, and jitter which reduce action coherence. Reduced action coherence causes instability and trajectory drift during deployment, failures that are catastrophic in fine-grained manipulation where precision is crucial. In this paper, we present Action Coherence Guidance (ACG) for VLA models, a training-free test-time guidance algorithm that improves action coherence and thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and real-world SO-101 tasks, ACG consistently improves action coherence and boosts success rates across diverse manipulation tasks. Code and project page are available at https://github.com/DAVIAN-Robotics/ACG and https://DAVIAN-Robotics.github.io/ACG , respectively.
PDF362December 31, 2025