ChatPaper.aiChatPaper

Modèle Unifié Vision-Langue-Action

Unified Vision-Language-Action Model

June 24, 2025
Auteurs: Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang
cs.AI

Résumé

Les modèles vision-langage-action (VLA) ont suscité un intérêt considérable pour leur potentiel dans l'amélioration de la manipulation robotique. Cependant, les approches précédentes reposent principalement sur les capacités de compréhension générale des modèles vision-langage (VLM) pour générer des signaux d'action, négligeant souvent la riche structure temporelle et causale intégrée dans les observations visuelles. Dans cet article, nous présentons UniVLA, un modèle VLA multimodal unifié et natif qui modélise de manière autoregressive les signaux visuels, linguistiques et d'action sous forme de séquences de tokens discrètes. Cette formulation permet un apprentissage flexible de tâches multimodales, en particulier à partir de données vidéo à grande échelle. En intégrant la modélisation du monde lors de l'après-entraînement, UniVLA capture les dynamiques causales à partir des vidéos, facilitant ainsi un transfert efficace vers l'apprentissage de politiques en aval—en particulier pour les tâches à long terme. Notre approche établit de nouveaux records de pointe sur plusieurs benchmarks de simulation largement utilisés, notamment CALVIN, LIBERO et Simplenv-Bridge, surpassant significativement les méthodes précédentes. Par exemple, UniVLA atteint un taux de réussite moyen de 95,5 % sur le benchmark LIBERO, dépassant les 85,5 % de pi0-FAST. Nous démontrons également sa large applicabilité dans des contextes réels de manipulation ALOHA et de conduite autonome.
English
Vision-language-action models (VLAs) have garnered significant attention for their potential in advancing robotic manipulation. However, previous approaches predominantly rely on the general comprehension capabilities of vision-language models (VLMs) to generate action signals, often overlooking the rich temporal and causal structure embedded in visual observations. In this paper, we present UniVLA, a unified and native multimodal VLA model that autoregressively models vision, language, and action signals as discrete token sequences. This formulation enables flexible multimodal tasks learning, particularly from large-scale video data. By incorporating world modeling during post-training, UniVLA captures causal dynamics from videos, facilitating effective transfer to downstream policy learning--especially for long-horizon tasks. Our approach sets new state-of-the-art results across several widely used simulation benchmarks, including CALVIN, LIBERO, and Simplenv-Bridge, significantly surpassing previous methods. For example, UniVLA achieves 95.5% average success rate on LIBERO benchmark, surpassing pi0-FAST's 85.5%. We further demonstrate its broad applicability on real-world ALOHA manipulation and autonomous driving.
PDF101June 25, 2025