DiffThinker: Generative multimodale Reasoning mit Diffusionsmodellen
DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
December 30, 2025
papers.authors: Zefeng He, Xiaoye Qu, Yafu Li, Tong Zhu, Siyuan Huang, Yu Cheng
cs.AI
papers.abstract
Während neuere Multimodale Large Language Models (MLLMs) bedeutende Fortschritte im multimodalen Denken erzielt haben, bleiben ihre Denkprozesse überwiegend textzentriert, was zu suboptimalen Leistungen bei komplexen, langfristigen und visuell zentrierten Aufgaben führt. In diesem Beitrag etablieren wir ein neuartiges Paradigma des Generativen Multimodalen Denkens und stellen DiffThinker vor, ein diffusionsbasiertes Denkframework. Konzeptionell formuliert DiffThinker multimodales Denken als native generative Bild-zu-Bild-Aufgabe um und erreicht dadurch überlegene logische Konsistenz und räumliche Präzision in visuell zentrierten Aufgaben. Wir führen einen systematischen Vergleich zwischen DiffThinker und MLLMs durch, bieten die erste eingehende Untersuchung der intrinsischen Eigenschaften dieses Paradigmas und decken vier Kerneigenschaften auf: Effizienz, Steuerbarkeit, native Parallelität und Kollaborationsfähigkeit. Umfangreiche Experimente in vier Domänen (sequentielle Planung, kombinatorische Optimierung, Constraint-Befriedigung und räumliche Konfiguration) zeigen, dass DiffThinker führende Closed-Source-Modelle, einschließlich GPT-5 (+314,2 %) und Gemini-3-Flash (+111,6 %), sowie die feinabgestimmte Qwen3-VL-32B-Baseline (+39,0 %) signifikant übertrifft. Dies unterstreicht das generative multimodale Denken als einen vielversprechenden Ansatz für visuell zentriertes Denken.
English
While recent Multimodal Large Language Models (MLLMs) have attained significant strides in multimodal reasoning, their reasoning processes remain predominantly text-centric, leading to suboptimal performance in complex long-horizon, vision-centric tasks. In this paper, we establish a novel Generative Multimodal Reasoning paradigm and introduce DiffThinker, a diffusion-based reasoning framework. Conceptually, DiffThinker reformulates multimodal reasoning as a native generative image-to-image task, achieving superior logical consistency and spatial precision in vision-centric tasks. We perform a systematic comparison between DiffThinker and MLLMs, providing the first in-depth investigation into the intrinsic characteristics of this paradigm, revealing four core properties: efficiency, controllability, native parallelism, and collaboration. Extensive experiments across four domains (sequential planning, combinatorial optimization, constraint satisfaction, and spatial configuration) demonstrate that DiffThinker significantly outperforms leading closed source models including GPT-5 (+314.2\%) and Gemini-3-Flash (+111.6\%), as well as the fine-tuned Qwen3-VL-32B baseline (+39.0\%), highlighting generative multimodal reasoning as a promising approach for vision-centric reasoning.