ChatPaper.aiChatPaper

Dream-VL и Dream-VLA: Открытые модели Vision-Language и Vision-Language-Action с бэкбоном на основе диффузионной языковой модели

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

December 27, 2025
Авторы: Jiacheng Ye, Shansan Gong, Jiahui Gao, Junming Fan, Shuang Wu, Wei Bi, Haoli Bai, Lifeng Shang, Lingpeng Kong
cs.AI

Аннотация

Хотя авторегрессионные большие визуально-языковые модели (VLM) достигли значительных успехов, их последовательная генерация часто ограничивает эффективность в задачах сложного визуального планирования и динамического управления роботами. В данной работе мы исследуем потенциал построения визуально-языковых моделей на основе диффузионных больших языковых моделей (dLLM) для преодоления этих ограничений. Мы представляем Dream-VL — открытую диффузионную VLM (dVLM), достигающую наилучших показателей среди существующих dVLM. Dream-VL сопоставима с ведущими AR-ориентированными VLM, обученными на открытых данных, в различных тестах, но демонстрирует превосходный потенциал при решении задач визуального планирования. На базе Dream-VL мы представляем Dream-VLA — модель «Визуальный язык-действие» на основе dLLM (dVLA), разработанную путем непрерывного дообучения на открытых роботехнических наборах данных. Мы показываем, что изначально двунаправленная природа этого диффузионного каркаса служит превосходной основой для задач VLA, естественным образом подходя для группировки действий и параллельной генерации, что приводит к значительно более быстрой сходимости при дообучении. Dream-VLA достигает наилучших показателей: 97.2% среднего уровня успешности на LIBERO, 71.4% общего среднего на SimplerEnv-Bridge и 60.5% общего среднего на SimplerEnv-Fractal, превосходя ведущие модели, такие как π_0 и GR00T-N1. Мы также подтверждаем, что dVLM превосходят AR-базлы на downstream-задачах при различных целевых функциях обучения. Мы публикуем Dream-VL и Dream-VLA для содействия дальнейшим исследованиям в сообществе.
English
While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as π_0 and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.
PDF271December 31, 2025