ChatPaper.aiChatPaper

ACG: 플로우 기반 VLA 모델을 위한 액션 코히런스 가이던스

ACG: Action Coherence Guidance for Flow-based VLA models

October 25, 2025
저자: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI

초록

확산 및 흐름 매칭 모델은 다양한 장면과 지시에 일반화할 수 있는 시각-언어-행동(VLA) 모델을 가능하게 하는 강력한 로봇 정책으로 부상했습니다. 그러나 모방 학습을 통해 훈련될 때, 이들의 높은 생성 능력은 인간 시연 데이터의 노이즈(갑작스러운 움직임, 멈춤, 떨림 등)에 민감하게 반응하여 행동 일관성을 저하시키는 단점이 있습니다. 이러한 행동 일관성 감소는 실제 배포 시 불안정성과 궤적 오차를 초래하며, 정밀도가 중요한 세밀한 조작 작업에서는 치명적인 실패로 이어집니다. 본 논문에서는 VLA 모델을 위한 훈련 없이도 적용 가능한 테스트 단계 지도 알고리즘인 행동 일관성 지도(ACG)를 제안합니다. ACG는 행동 일관성을 향상시켜 성능 향상을 가져옵니다. RoboCasa, DexMimicGen 및 실제 SO-101 작업에 대해 평가한 결과, ACG는 다양한 조작 작업에서 행동 일관성을 지속적으로 개선하고 성공률을 높이는 것으로 나타났습니다. 코드와 프로젝트 페이지는 각각 https://github.com/DAVIAN-Robotics/ACG 와 https://DAVIAN-Robotics.github.io/ACG 에서 확인할 수 있습니다.
English
Diffusion and flow matching models have emerged as powerful robot policies, enabling Vision-Language-Action (VLA) models to generalize across diverse scenes and instructions. Yet, when trained via imitation learning, their high generative capacity makes them sensitive to noise in human demonstrations: jerks, pauses, and jitter which reduce action coherence. Reduced action coherence causes instability and trajectory drift during deployment, failures that are catastrophic in fine-grained manipulation where precision is crucial. In this paper, we present Action Coherence Guidance (ACG) for VLA models, a training-free test-time guidance algorithm that improves action coherence and thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and real-world SO-101 tasks, ACG consistently improves action coherence and boosts success rates across diverse manipulation tasks. Code and project page are available at https://github.com/DAVIAN-Robotics/ACG and https://DAVIAN-Robotics.github.io/ACG , respectively.
PDF362December 31, 2025