ChatPaper.aiChatPaper

Vereinheitlichtes Vision-Sprache-Handlung-Modell

Unified Vision-Language-Action Model

June 24, 2025
Autoren: Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang
cs.AI

Zusammenfassung

Vision-Language-Action-Modelle (VLAs) haben aufgrund ihres Potenzials zur Weiterentwicklung der robotischen Manipulation erhebliche Aufmerksamkeit erregt. Bisherige Ansätze stützen sich jedoch überwiegend auf die allgemeinen Verständnisfähigkeiten von Vision-Language-Modellen (VLMs), um Aktionssignale zu generieren, wobei häufig die reichhaltige zeitliche und kausale Struktur, die in visuellen Beobachtungen enthalten ist, übersehen wird. In diesem Artikel stellen wir UniVLA vor, ein einheitliches und natives multimodales VLA-Modell, das visuelle, sprachliche und aktionsbezogene Signale autoregressiv als diskrete Token-Sequenzen modelliert. Diese Formulierung ermöglicht flexibles Lernen multimodaler Aufgaben, insbesondere aus groß angelegten Videodaten. Durch die Einbindung von Weltmodellierung während des Post-Trainings erfasst UniVLA kausale Dynamiken aus Videos, was einen effektiven Transfer auf nachgelagerte Policy-Lernaufgaben erleichtert – insbesondere für langfristige Aufgaben. Unser Ansatz erzielt neue State-of-the-Art-Ergebnisse in mehreren weit verbreiteten Simulationsbenchmarks, darunter CALVIN, LIBERO und Simplenv-Bridge, und übertrifft dabei bisherige Methoden deutlich. Beispielsweise erreicht UniVLA eine durchschnittliche Erfolgsrate von 95,5 % im LIBERO-Benchmark und übertrifft damit pi0-FAST mit 85,5 %. Darüber hinaus demonstrieren wir seine breite Anwendbarkeit in der realen Welt, sowohl bei der ALOHA-Manipulation als auch beim autonomen Fahren.
English
Vision-language-action models (VLAs) have garnered significant attention for their potential in advancing robotic manipulation. However, previous approaches predominantly rely on the general comprehension capabilities of vision-language models (VLMs) to generate action signals, often overlooking the rich temporal and causal structure embedded in visual observations. In this paper, we present UniVLA, a unified and native multimodal VLA model that autoregressively models vision, language, and action signals as discrete token sequences. This formulation enables flexible multimodal tasks learning, particularly from large-scale video data. By incorporating world modeling during post-training, UniVLA captures causal dynamics from videos, facilitating effective transfer to downstream policy learning--especially for long-horizon tasks. Our approach sets new state-of-the-art results across several widely used simulation benchmarks, including CALVIN, LIBERO, and Simplenv-Bridge, significantly surpassing previous methods. For example, UniVLA achieves 95.5% average success rate on LIBERO benchmark, surpassing pi0-FAST's 85.5%. We further demonstrate its broad applicability on real-world ALOHA manipulation and autonomous driving.
PDF101June 25, 2025