ChatPaper.aiChatPaper

Geïntegreerd Visie-Taal-Actie Model

Unified Vision-Language-Action Model

June 24, 2025
Auteurs: Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang
cs.AI

Samenvatting

Vision-language-action-modellen (VLA's) hebben aanzienlijke aandacht gekregen vanwege hun potentieel om robotmanipulatie te bevorderen. Eerdere benaderingen vertrouwen echter voornamelijk op de algemene begripsvaardigheden van vision-language-modellen (VLM's) om actiesignalen te genereren, waarbij vaak de rijke temporele en causale structuur in visuele observaties over het hoofd wordt gezien. In dit artikel presenteren we UniVLA, een uniform en native multimodaal VLA-model dat visuele, taal- en actiesignalen autoregressief modelleert als discrete tokenreeksen. Deze formulering maakt flexibel leren van multimodale taken mogelijk, met name op basis van grootschalige videodata. Door wereldmodellering toe te voegen tijdens het post-training, vangt UniVLA causale dynamiek op uit video's, wat een effectieve overdracht naar downstream beleidsleren vergemakkelijkt—met name voor taken met een lange horizon. Onze aanpak behaalt nieuwe state-of-the-art resultaten op verschillende veelgebruikte simulatiebenchmarks, waaronder CALVIN, LIBERO en Simplenv-Bridge, en overtreft eerdere methoden aanzienlijk. UniVLA behaalt bijvoorbeeld een gemiddeld slagingspercentage van 95,5% op de LIBERO-benchmark, wat pi0-FAST's 85,5% overstijgt. We demonstreren verder de brede toepasbaarheid ervan op real-world ALOHA-manipulatie en autonoom rijden.
English
Vision-language-action models (VLAs) have garnered significant attention for their potential in advancing robotic manipulation. However, previous approaches predominantly rely on the general comprehension capabilities of vision-language models (VLMs) to generate action signals, often overlooking the rich temporal and causal structure embedded in visual observations. In this paper, we present UniVLA, a unified and native multimodal VLA model that autoregressively models vision, language, and action signals as discrete token sequences. This formulation enables flexible multimodal tasks learning, particularly from large-scale video data. By incorporating world modeling during post-training, UniVLA captures causal dynamics from videos, facilitating effective transfer to downstream policy learning--especially for long-horizon tasks. Our approach sets new state-of-the-art results across several widely used simulation benchmarks, including CALVIN, LIBERO, and Simplenv-Bridge, significantly surpassing previous methods. For example, UniVLA achieves 95.5% average success rate on LIBERO benchmark, surpassing pi0-FAST's 85.5%. We further demonstrate its broad applicability on real-world ALOHA manipulation and autonomous driving.
PDF231June 25, 2025