DiffThinker: 拡散モデルによる生成的マルチモーダル推論の実現に向けて
DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
December 30, 2025
著者: Zefeng He, Xiaoye Qu, Yafu Li, Tong Zhu, Siyuan Huang, Yu Cheng
cs.AI
要旨
近年、マルチモーダル大規模言語モデル(MLLM)はマルチモーダル推論において著しい進歩を遂げているが、その推論プロセスは依然としてテキスト中心が主流であり、複雑な長期視野の視覚中心タスクでは性能が十分に発揮されていない。本論文では、新たな生成的マルチモーダル推論パラダイムを確立し、拡散モデルベースの推論フレームワークであるDiffThinkerを提案する。概念的には、DiffThinkerはマルチモーダル推論を本来の生成的画像変換タスクとして再定式化し、視覚中心タスクにおいて優れた論理的一貫性と空間的精度を実現する。我々はDiffThinkerとMLLMの体系的比較を行い、このパラダイムの内在的特性に関する初の詳細な調査を提供し、効率性、制御性、本来の並列性、協調性という四つの核心的特性を明らかにする。4つの領域(逐次的計画、組合せ最適化、制約充足、空間配置)にわたる大規模な実験により、DiffThinkerがGPT-5(+314.2%)、Gemini-3-Flash(+111.6%)といった主要なクローズドソースモデルや、ファインチューニングされたQwen3-VL-32Bベースライン(+39.0%)を大幅に上回ることを実証し、生成的マルチモーダル推論が視覚中心推論における有望なアプローチであることを示す。
English
While recent Multimodal Large Language Models (MLLMs) have attained significant strides in multimodal reasoning, their reasoning processes remain predominantly text-centric, leading to suboptimal performance in complex long-horizon, vision-centric tasks. In this paper, we establish a novel Generative Multimodal Reasoning paradigm and introduce DiffThinker, a diffusion-based reasoning framework. Conceptually, DiffThinker reformulates multimodal reasoning as a native generative image-to-image task, achieving superior logical consistency and spatial precision in vision-centric tasks. We perform a systematic comparison between DiffThinker and MLLMs, providing the first in-depth investigation into the intrinsic characteristics of this paradigm, revealing four core properties: efficiency, controllability, native parallelism, and collaboration. Extensive experiments across four domains (sequential planning, combinatorial optimization, constraint satisfaction, and spatial configuration) demonstrate that DiffThinker significantly outperforms leading closed source models including GPT-5 (+314.2\%) and Gemini-3-Flash (+111.6\%), as well as the fine-tuned Qwen3-VL-32B baseline (+39.0\%), highlighting generative multimodal reasoning as a promising approach for vision-centric reasoning.