ChatPaper.aiChatPaper

Modelo Unificado de Visión-Lenguaje-Acción

Unified Vision-Language-Action Model

June 24, 2025
Autores: Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang
cs.AI

Resumen

Los modelos visión-lenguaje-acción (VLAs) han captado una atención significativa por su potencial para avanzar en la manipulación robótica. Sin embargo, enfoques previos dependen predominantemente de las capacidades de comprensión general de los modelos visión-lenguaje (VLMs) para generar señales de acción, a menudo pasando por alto la rica estructura temporal y causal incrustada en las observaciones visuales. En este artículo, presentamos UniVLA, un modelo VLA multimodal unificado y nativo que modela autoregresivamente las señales de visión, lenguaje y acción como secuencias de tokens discretos. Esta formulación permite un aprendizaje flexible de tareas multimodales, particularmente a partir de datos de video a gran escala. Al incorporar el modelado del mundo durante el post-entrenamiento, UniVLA captura dinámicas causales de los videos, facilitando una transferencia efectiva al aprendizaje de políticas descendentes, especialmente para tareas de largo horizonte. Nuestro enfoque establece nuevos resultados de vanguardia en varios puntos de referencia de simulación ampliamente utilizados, incluyendo CALVIN, LIBERO y Simplenv-Bridge, superando significativamente métodos anteriores. Por ejemplo, UniVLA logra una tasa de éxito promedio del 95.5% en el punto de referencia LIBERO, superando el 85.5% de pi0-FAST. Además, demostramos su amplia aplicabilidad en la manipulación del mundo real con ALOHA y la conducción autónoma.
English
Vision-language-action models (VLAs) have garnered significant attention for their potential in advancing robotic manipulation. However, previous approaches predominantly rely on the general comprehension capabilities of vision-language models (VLMs) to generate action signals, often overlooking the rich temporal and causal structure embedded in visual observations. In this paper, we present UniVLA, a unified and native multimodal VLA model that autoregressively models vision, language, and action signals as discrete token sequences. This formulation enables flexible multimodal tasks learning, particularly from large-scale video data. By incorporating world modeling during post-training, UniVLA captures causal dynamics from videos, facilitating effective transfer to downstream policy learning--especially for long-horizon tasks. Our approach sets new state-of-the-art results across several widely used simulation benchmarks, including CALVIN, LIBERO, and Simplenv-Bridge, significantly surpassing previous methods. For example, UniVLA achieves 95.5% average success rate on LIBERO benchmark, surpassing pi0-FAST's 85.5%. We further demonstrate its broad applicability on real-world ALOHA manipulation and autonomous driving.
PDF101June 25, 2025