ChatPaper.aiChatPaper

ACG: Orientação de Coerência de Ação para Modelos VLA Baseados em Fluxo

ACG: Action Coherence Guidance for Flow-based VLA models

October 25, 2025
Autores: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI

Resumo

Os modelos de difusão e correspondência de fluxo emergiram como políticas robóticas poderosas, permitindo que os modelos Visão-Linguagem-Ação (VLA) generalizem em diversas cenas e instruções. No entanto, quando treinados via aprendizado por imitação, sua alta capacidade generativa os torna sensíveis a ruídos nas demonstrações humanas: solavancos, pausas e tremores que reduzem a coerência das ações. A redução da coerência das ações causa instabilidade e deriva de trajetória durante a implantação, falhas que são catastróficas na manipulação de alta precisão, onde a exatidão é crucial. Neste artigo, apresentamos a Orientação de Coerência de Ação (ACG) para modelos VLA, um algoritmo de orientação em tempo de teste, sem necessidade de treinamento, que melhora a coerência das ações e, consequentemente, produz ganhos de desempenho. Avaliado nas tarefas RoboCasa, DexMimicGen e SO-101 do mundo real, o ACG melhora consistentemente a coerência das ações e aumenta as taxas de sucesso em diversas tarefas de manipulação. O código e a página do projeto estão disponíveis em https://github.com/DAVIAN-Robotics/ACG e https://DAVIAN-Robotics.github.io/ACG, respectivamente.
English
Diffusion and flow matching models have emerged as powerful robot policies, enabling Vision-Language-Action (VLA) models to generalize across diverse scenes and instructions. Yet, when trained via imitation learning, their high generative capacity makes them sensitive to noise in human demonstrations: jerks, pauses, and jitter which reduce action coherence. Reduced action coherence causes instability and trajectory drift during deployment, failures that are catastrophic in fine-grained manipulation where precision is crucial. In this paper, we present Action Coherence Guidance (ACG) for VLA models, a training-free test-time guidance algorithm that improves action coherence and thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and real-world SO-101 tasks, ACG consistently improves action coherence and boosts success rates across diverse manipulation tasks. Code and project page are available at https://github.com/DAVIAN-Robotics/ACG and https://DAVIAN-Robotics.github.io/ACG , respectively.
PDF362December 31, 2025