Dream-VL & Dream-VLA: Modelos Abertos de Visão-Linguagem e Visão-Linguagem-Ação com Backbone de Modelo de Linguagem por Difusão

Resumo

Embora os Grandes Modelos de Visão e Linguagem (VLMs) autoregressivos tenham alcançado sucesso notável, sua geração sequencial frequentemente limita sua eficácia em planejamento visual complexo e controle robótico dinâmico. Neste trabalho, investigamos o potencial de construir Modelos de Visão e Linguagem sobre modelos de linguagem grandes baseados em difusão (dLLMs) para superar essas limitações. Apresentamos o Dream-VL, um VLM aberto baseado em difusão (dVLM) que alcança desempenho de ponta entre os dVLMs anteriores. O Dream-VL é comparável aos VLMs baseados em AR de primeira linha treinados com dados abertos em vários benchmarks, mas exibe potencial superior quando aplicado a tarefas de planejamento visual. Com base no Dream-VL, introduzimos o Dream-VLA, um modelo Visão-Linguagem-Ação baseado em dLLM (dVLA) desenvolvido através de pré-treinamento contínuo em conjuntos de dados robóticos abertos. Demonstramos que a natureza nativamente bidirecional deste *backbone* de difusão serve como uma base superior para tarefas VLA, sendo intrinsecamente adequado para agrupamento de ações e geração paralela, levando a uma convergência significativamente mais rápida no ajuste fino (*fine-tuning*) em tarefas subsequentes. O Dream-VLA alcança um desempenho de primeira linha, com uma taxa média de sucesso de 97,2% no LIBERO, 71,4% de média geral no SimplerEnv-Bridge e 60,5% de média geral no SimplerEnv-Fractal, superando modelos líderes como π_0 e GR00T-N1. Também validamos que os dVLMs superam as linhas de base AR em tarefas subsequentes em diferentes objetivos de treinamento. Disponibilizamos tanto o Dream-VL quanto o Dream-VLA para facilitar pesquisas futuras na comunidade.

English

While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as π_0 and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.

Dream-VL & Dream-VLA: Modelos Abertos de Visão-Linguagem e Visão-Linguagem-Ação com Backbone de Modelo de Linguagem por Difusão

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

Resumo

Support