Dream-VL y Dream-VLA: Modelos Abiertos de Visión-Lenguaje y Visión-Lenguaje-Acción con un Esqueleto de Modelo de Lenguaje de Difusión
Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone
December 27, 2025
Autores: Jiacheng Ye, Shansan Gong, Jiahui Gao, Junming Fan, Shuang Wu, Wei Bi, Haoli Bai, Lifeng Shang, Lingpeng Kong
cs.AI
Resumen
Si bien los modelos de lenguaje de visión autoregresivos (VLMs) han logrado un éxito notable, su generación secuencial a menudo limita su eficacia en la planificación visual compleja y el control robótico dinámico. En este trabajo, investigamos el potencial de construir modelos de lenguaje de visión sobre modelos de lenguaje grandes basados en difusión (dLLMs) para superar estas limitaciones. Presentamos Dream-VL, un VLM abierto basado en difusión (dVLM) que logra un rendimiento de vanguardia entre los dVLMs anteriores. Dream-VL es comparable a los VLMs basados en AR de primer nivel entrenados con datos abiertos en varios benchmarks, pero exhibe un potencial superior cuando se aplica a tareas de planificación visual. Sobre la base de Dream-VL, presentamos Dream-VLA, un modelo de Visión-Lenguaje-Acción basado en dLLM (dVLA) desarrollado mediante pre-entrenamiento continuo en conjuntos de datos robóticos abiertos. Demostramos que la naturaleza inherentemente bidireccional de este backbone de difusión sirve como una base superior para las tareas VLA, inherentemente adecuada para la segmentación de acciones y la generación paralela, lo que conduce a una convergencia significativamente más rápida en el ajuste fino para tareas específicas. Dream-VL logra un rendimiento de primer nivel con una tasa de éxito promedio del 97.2% en LIBERO, un promedio general del 71.4% en SimplerEnv-Bridge y del 60.5% en SimplerEnv-Fractal, superando a modelos líderes como π_0 y GR00T-N1. También validamos que los dVLMs superan a los modelos baseline AR en tareas específicas bajo diferentes objetivos de entrenamiento. Liberamos tanto Dream-VL como Dream-VLA para facilitar futuras investigaciones en la comunidad.
English
While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as π_0 and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.