Modelo Unificado de Visão-Linguagem-Ação
Unified Vision-Language-Action Model
June 24, 2025
Autores: Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang
cs.AI
Resumo
Modelos visão-linguagem-ação (VLAs) têm atraído atenção significativa por seu potencial em avançar a manipulação robótica. No entanto, abordagens anteriores dependem predominantemente das capacidades de compreensão geral dos modelos visão-linguagem (VLMs) para gerar sinais de ação, muitas vezes negligenciando a rica estrutura temporal e causal incorporada nas observações visuais. Neste artigo, apresentamos o UniVLA, um modelo multimodal VLA unificado e nativo que modela autoregressivamente sinais de visão, linguagem e ação como sequências de tokens discretos. Essa formulação permite o aprendizado flexível de tarefas multimodais, particularmente a partir de dados de vídeo em larga escala. Ao incorporar a modelagem de mundo durante o pós-treinamento, o UniVLA captura dinâmicas causais de vídeos, facilitando a transferência eficaz para o aprendizado de políticas subsequentes—especialmente para tarefas de longo horizonte. Nossa abordagem estabelece novos resultados de estado da arte em vários benchmarks de simulação amplamente utilizados, incluindo CALVIN, LIBERO e Simplenv-Bridge, superando significativamente métodos anteriores. Por exemplo, o UniVLA alcança uma taxa média de sucesso de 95,5% no benchmark LIBERO, superando os 85,5% do pi0-FAST. Demonstramos ainda sua ampla aplicabilidade na manipulação do mundo real com o ALOHA e na condução autônoma.
English
Vision-language-action models (VLAs) have garnered significant attention for
their potential in advancing robotic manipulation. However, previous approaches
predominantly rely on the general comprehension capabilities of vision-language
models (VLMs) to generate action signals, often overlooking the rich temporal
and causal structure embedded in visual observations. In this paper, we present
UniVLA, a unified and native multimodal VLA model that autoregressively models
vision, language, and action signals as discrete token sequences. This
formulation enables flexible multimodal tasks learning, particularly from
large-scale video data. By incorporating world modeling during post-training,
UniVLA captures causal dynamics from videos, facilitating effective transfer to
downstream policy learning--especially for long-horizon tasks. Our approach
sets new state-of-the-art results across several widely used simulation
benchmarks, including CALVIN, LIBERO, and Simplenv-Bridge, significantly
surpassing previous methods. For example, UniVLA achieves 95.5% average success
rate on LIBERO benchmark, surpassing pi0-FAST's 85.5%. We further demonstrate
its broad applicability on real-world ALOHA manipulation and autonomous
driving.