ChatPaper.aiChatPaper

ACG: Guida alla Coerenza dell'Azione per modelli VLA basati sul flusso

ACG: Action Coherence Guidance for Flow-based VLA models

October 25, 2025
Autori: Minho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo
cs.AI

Abstract

I modelli di diffusione e di flusso corrispondente sono emersi come potenti politiche robotiche, consentendo ai modelli Visione-Linguaggio-Azione (VLA) di generalizzare attraverso scenari e istruzioni diversi. Tuttavia, quando addestrati tramite apprendimento per imitazione, la loro elevata capacità generativa li rende sensibili al rumore presente nelle dimostrazioni umane: scatti, pause e tremolii che riducono la coerenza delle azioni. Una ridotta coerenza delle azioni causa instabilità e deriva della traiettoria durante l'implementazione, guasti che sono catastrofici nella manipolazione di precisione dove la precisione è cruciale. In questo articolo, presentiamo Action Coherence Guidance (ACG) per modelli VLA, un algoritmo di guida in fase di test che non richiede addestramento e che migliora la coerenza delle azioni, producendo così guadagni prestazionali. Valutato su RoboCasa, DexMimicGen e su compiti reali SO-101, ACG migliora costantemente la coerenza delle azioni e aumenta i tassi di successo in vari compiti di manipolazione. Il codice e la pagina del progetto sono disponibili rispettivamente su https://github.com/DAVIAN-Robotics/ACG e https://DAVIAN-Robotics.github.io/ACG.
English
Diffusion and flow matching models have emerged as powerful robot policies, enabling Vision-Language-Action (VLA) models to generalize across diverse scenes and instructions. Yet, when trained via imitation learning, their high generative capacity makes them sensitive to noise in human demonstrations: jerks, pauses, and jitter which reduce action coherence. Reduced action coherence causes instability and trajectory drift during deployment, failures that are catastrophic in fine-grained manipulation where precision is crucial. In this paper, we present Action Coherence Guidance (ACG) for VLA models, a training-free test-time guidance algorithm that improves action coherence and thereby yields performance gains. Evaluated on RoboCasa, DexMimicGen, and real-world SO-101 tasks, ACG consistently improves action coherence and boosts success rates across diverse manipulation tasks. Code and project page are available at https://github.com/DAVIAN-Robotics/ACG and https://DAVIAN-Robotics.github.io/ACG , respectively.
PDF362December 3, 2025