ChatPaper.aiChatPaper

Dream-VL & Dream-VLA: 拡散言語モデルを基盤とするオープンな視覚言語モデルおよび視覚言語行動モデル

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

December 27, 2025
著者: Jiacheng Ye, Shansan Gong, Jiahui Gao, Junming Fan, Shuang Wu, Wei Bi, Haoli Bai, Lifeng Shang, Lingpeng Kong
cs.AI

要旨

自己回帰型大規模視覚言語モデル(VLM)は目覚ましい成功を収めているが、その逐次生成方式は複雑な視覚計画や動的なロボット制御における有効性を制限することが多い。本研究では、拡散ベースの大規模言語モデル(dLLM)上に視覚言語モデルを構築する可能性を探り、これらの限界を克服することを目指す。我々は、従来のdVLMの中で最先端の性能を達成するオープンな拡散ベースVLM(dVLM)、Dream-VLを提案する。Dream-VLは、各種ベンチマークにおいてオープンデータで学習されたトップクラスのARベースVLMに匹敵する性能を示しつつ、視覚計画タスクに適用した際に優れた潜在能力を発揮する。Dream-VLを基盤として、オープンなロボットデータセットを用いた連続事前学習により開発されたdLLMベースの視覚言語行動モデル(dVLA)、Dream-VLAを導入する。この拡散バックボーンが本来備える双方向性がVLAタスクの基盤として優れており、行動チャンキングと並列生成に本質的に適しているため、下流タスクのファインチューニングにおいて大幅に高速な収束を実現することを示す。Dream-VLは、LIBEROで97.2%の平均成功率、SimplerEnv-Bridgeで71.4%の総合平均、SimplerEnv-Fractalで60.5%の総合平均を達成し、π_0やGR00T-N1などの主要モデルを凌駕するトップクラスの性能を実現した。また、異なる学習目的における下流タスクにおいて、dVLMがARベースラインを上回ることも検証する。コミュニティのさらなる研究の発展に貢献するため、Dream-VLとDream-VLAの両方を公開する。
English
While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as π_0 and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.
PDF271December 31, 2025