ChatPaper.aiChatPaper

Dream-VL & Dream-VLA: 확산 언어 모델 백본을 활용한 오픈 비전-언어 및 비전-언어-행동 모델

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

December 27, 2025
저자: Jiacheng Ye, Shansan Gong, Jiahui Gao, Junming Fan, Shuang Wu, Wei Bi, Haoli Bai, Lifeng Shang, Lingpeng Kong
cs.AI

초록

자동회귀적 대규모 시각-언어 모델(VLM)이 놀라운 성과를 거두었지만, 순차적 생성 방식은 복잡한 시각 계획 및 동적 로봇 제어에서의 효율성을 제한하는 경우가 많습니다. 본 연구에서는 이러한 한계를 극복하기 위해 확산 기반 대규모 언어 모델(dLLM) 위에 시각-언어 모델을 구축하는 가능성을 탐구합니다. 우리는 기존 dVLMs 중 최고 수준의 성능을 달성하는 오픈 확산 기반 VLM(dVLM)인 Dream-VL을 소개합니다. Dream-VL은 다양한 벤치마크에서 오픈 데이터로 학습된 최상위 AR 기반 VLMs에 필적하는 성능을 보이면서도, 시각 계획 작업에 적용될 때 우수한 잠재력을 보여줍니다. Dream-VL을 기반으로, 우리는 오픈 로봇 데이터셋에 대한 지속적 사전 학습을 통해 개발된 dLLM 기반 시각-언어-행동 모델(dVLA)인 Dream-VLA를 소개합니다. 우리는 이 확산 백본의 본질적 양방향 특성이 VLA 작업을 위한 우수한 기반 역할을 하며, 액션 청킹 및 병렬 생성에 본질적으로 적합하여 하류 작업 미세 조정에서 훨씬 빠른 수렴을 이끈다는 점을 입증합니다. Dream-VLA는 LIBERO에서 97.2%의 평균 성공률, SimplerEnv-Bridge에서 71.4%의 전체 평균, SimplerEnv-Fractal에서 60.5%의 전체 평균이라는 최상위 성능을 달성하여 π_0 및 GR00T-N1과 같은 주요 모델을 능가합니다. 또한 우리는 dVLMs이 다양한 학습 목표에 걸친 하류 작업에서 AR 기준 모델들을 능가함을 검증합니다. 커뮤니티의 추가 연구를 촉진하기 위해 Dream-VL과 Dream-VLA를 모두 공개합니다.
English
While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as π_0 and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.
PDF271December 31, 2025