ChatPaper.aiChatPaper

Modelo Unificado de Visão-Linguagem-Ação

Unified Vision-Language-Action Model

June 24, 2025
Autores: Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang
cs.AI

Resumo

Modelos visão-linguagem-ação (VLAs) têm atraído atenção significativa por seu potencial em avançar a manipulação robótica. No entanto, abordagens anteriores dependem predominantemente das capacidades de compreensão geral dos modelos visão-linguagem (VLMs) para gerar sinais de ação, muitas vezes negligenciando a rica estrutura temporal e causal incorporada nas observações visuais. Neste artigo, apresentamos o UniVLA, um modelo multimodal VLA unificado e nativo que modela autoregressivamente sinais de visão, linguagem e ação como sequências de tokens discretos. Essa formulação permite o aprendizado flexível de tarefas multimodais, particularmente a partir de dados de vídeo em larga escala. Ao incorporar a modelagem de mundo durante o pós-treinamento, o UniVLA captura dinâmicas causais de vídeos, facilitando a transferência eficaz para o aprendizado de políticas subsequentes—especialmente para tarefas de longo horizonte. Nossa abordagem estabelece novos resultados de estado da arte em vários benchmarks de simulação amplamente utilizados, incluindo CALVIN, LIBERO e Simplenv-Bridge, superando significativamente métodos anteriores. Por exemplo, o UniVLA alcança uma taxa média de sucesso de 95,5% no benchmark LIBERO, superando os 85,5% do pi0-FAST. Demonstramos ainda sua ampla aplicabilidade na manipulação do mundo real com o ALOHA e na condução autônoma.
English
Vision-language-action models (VLAs) have garnered significant attention for their potential in advancing robotic manipulation. However, previous approaches predominantly rely on the general comprehension capabilities of vision-language models (VLMs) to generate action signals, often overlooking the rich temporal and causal structure embedded in visual observations. In this paper, we present UniVLA, a unified and native multimodal VLA model that autoregressively models vision, language, and action signals as discrete token sequences. This formulation enables flexible multimodal tasks learning, particularly from large-scale video data. By incorporating world modeling during post-training, UniVLA captures causal dynamics from videos, facilitating effective transfer to downstream policy learning--especially for long-horizon tasks. Our approach sets new state-of-the-art results across several widely used simulation benchmarks, including CALVIN, LIBERO, and Simplenv-Bridge, significantly surpassing previous methods. For example, UniVLA achieves 95.5% average success rate on LIBERO benchmark, surpassing pi0-FAST's 85.5%. We further demonstrate its broad applicability on real-world ALOHA manipulation and autonomous driving.
PDF251June 25, 2025