ACG: Управление когерентностью действий для VLA-моделей на основе потоков
ACG: Action Coherence Guidance for Flow-based VLA models
October 25, 2025
Авторы: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI
Аннотация
Модели диффузии и согласования потоков зарекомендовали себя как эффективные политики управления роботами, позволяя моделям «Вижение-Язык-Действие» (VLA) обобщать информацию в разнообразных сценах и следовать инструкциям. Однако при обучении через имитацию их высокая генеративная способность делает их чувствительными к шуму в человеческих демонстрациях: рывкам, паузам и дрожанию, которые снижают согласованность действий. Снижение согласованности действий приводит к нестабильности и дрейфу траектории во время работы — сбоям, катастрофическим для точных манипуляций, где важна высокая точность. В данной статье мы представляем метод направляющей согласованности действий (Action Coherence Guidance, ACG) для моделей VLA — алгоритм направляющей коррекции на этапе тестирования, не требующий дополнительного обучения, который повышает согласованность действий и, как следствие, улучшает производительность. Оценка на задачах из наборов RoboCasa, DexMimicGen и реальных задачах SO-101 показала, что ACG последовательно улучшает согласованность действий и повышает процент успешного выполнения разнообразных манипуляционных задач. Код и страница проекта доступны по адресам https://github.com/DAVIAN-Robotics/ACG и https://DAVIAN-Robotics.github.io/ACG соответственно.
English
Diffusion and flow matching models have emerged as powerful robot policies,
enabling Vision-Language-Action (VLA) models to generalize across diverse
scenes and instructions. Yet, when trained via imitation learning, their high
generative capacity makes them sensitive to noise in human demonstrations:
jerks, pauses, and jitter which reduce action coherence. Reduced action
coherence causes instability and trajectory drift during deployment, failures
that are catastrophic in fine-grained manipulation where precision is crucial.
In this paper, we present Action Coherence Guidance (ACG) for VLA models, a
training-free test-time guidance algorithm that improves action coherence and
thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and
real-world SO-101 tasks, ACG consistently improves action coherence and boosts
success rates across diverse manipulation tasks. Code and project page are
available at https://github.com/DAVIAN-Robotics/ACG and
https://DAVIAN-Robotics.github.io/ACG , respectively.