ACG: フローベースVLAモデルのための行動コヒーレンスガイダンス
ACG: Action Coherence Guidance for Flow-based VLA models
October 25, 2025
著者: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI
要旨
拡散モデルとフローマッチングモデルは、強力なロボット政策として登場し、Vision-Language-Action(VLA)モデルが多様なシーンと指示に一般化することを可能にしている。しかし、模倣学習によって訓練される場合、それらの高い生成能力は人間によるデモンストレーション中のノイズ(動作の途切れ、停止、震えなど、行動の一貫性を低下させるもの)に対して敏感にさせる。行動の一貫性が低下すると、実行時に不安定性と軌道のドリフトが生じ、精度が決定的に重要となる微細なマニピュレーションにおいては致命的な失敗につながる。本論文では、VLAモデルのためのAction Coherence Guidance(ACG)を提案する。これは訓練を必要としないテスト時ガイダンスアルゴリズムであり、行動の一貫性を改善し、それによって性能向上をもたらす。RoboCasa、DexMimicGen、および実世界のSO-101タスクによる評価において、ACGは一貫して行動の一貫性を改善し、多様なマニピュレーションタスクにおける成功率を向上させた。コードとプロジェクトページは、それぞれhttps://github.com/DAVIAN-Robotics/ACG と https://DAVIAN-Robotics.github.io/ACG で公開されている。
English
Diffusion and flow matching models have emerged as powerful robot policies,
enabling Vision-Language-Action (VLA) models to generalize across diverse
scenes and instructions. Yet, when trained via imitation learning, their high
generative capacity makes them sensitive to noise in human demonstrations:
jerks, pauses, and jitter which reduce action coherence. Reduced action
coherence causes instability and trajectory drift during deployment, failures
that are catastrophic in fine-grained manipulation where precision is crucial.
In this paper, we present Action Coherence Guidance (ACG) for VLA models, a
training-free test-time guidance algorithm that improves action coherence and
thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and
real-world SO-101 tasks, ACG consistently improves action coherence and boosts
success rates across diverse manipulation tasks. Code and project page are
available at https://github.com/DAVIAN-Robotics/ACG and
https://DAVIAN-Robotics.github.io/ACG , respectively.