Modello Unificato Visione-Linguaggio-Azione
Unified Vision-Language-Action Model
June 24, 2025
Autori: Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang
cs.AI
Abstract
I modelli visione-linguaggio-azione (VLA) hanno attirato una significativa attenzione per il loro potenziale nel migliorare la manipolazione robotica. Tuttavia, gli approcci precedenti si basano principalmente sulle capacità di comprensione generale dei modelli visione-linguaggio (VLM) per generare segnali d'azione, spesso trascurando la ricca struttura temporale e causale incorporata nelle osservazioni visive. In questo articolo, presentiamo UniVLA, un modello VLA multimodale unificato e nativo che modella autoregressivamente segnali di visione, linguaggio e azione come sequenze di token discreti. Questa formulazione consente un apprendimento flessibile di compiti multimodali, in particolare da dati video su larga scala. Incorporando la modellazione del mondo durante il post-addestramento, UniVLA cattura dinamiche causali dai video, facilitando un trasferimento efficace all'apprendimento di politiche downstream, specialmente per compiti a lungo termine. Il nostro approccio stabilisce nuovi risultati all'avanguardia su diversi benchmark di simulazione ampiamente utilizzati, tra cui CALVIN, LIBERO e Simplenv-Bridge, superando significativamente i metodi precedenti. Ad esempio, UniVLA raggiunge una percentuale media di successo del 95,5% sul benchmark LIBERO, superando l'85,5% di pi0-FAST. Dimostriamo inoltre la sua ampia applicabilità nella manipolazione reale ALOHA e nella guida autonoma.
English
Vision-language-action models (VLAs) have garnered significant attention for
their potential in advancing robotic manipulation. However, previous approaches
predominantly rely on the general comprehension capabilities of vision-language
models (VLMs) to generate action signals, often overlooking the rich temporal
and causal structure embedded in visual observations. In this paper, we present
UniVLA, a unified and native multimodal VLA model that autoregressively models
vision, language, and action signals as discrete token sequences. This
formulation enables flexible multimodal tasks learning, particularly from
large-scale video data. By incorporating world modeling during post-training,
UniVLA captures causal dynamics from videos, facilitating effective transfer to
downstream policy learning--especially for long-horizon tasks. Our approach
sets new state-of-the-art results across several widely used simulation
benchmarks, including CALVIN, LIBERO, and Simplenv-Bridge, significantly
surpassing previous methods. For example, UniVLA achieves 95.5% average success
rate on LIBERO benchmark, surpassing pi0-FAST's 85.5%. We further demonstrate
its broad applicability on real-world ALOHA manipulation and autonomous
driving.