ChatPaper.aiChatPaper

DiffThinker : Vers un raisonnement multimodal génératif avec les modèles de diffusion

DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

December 30, 2025
papers.authors: Zefeng He, Xiaoye Qu, Yafu Li, Tong Zhu, Siyuan Huang, Yu Cheng
cs.AI

papers.abstract

Bien que les modèles de langage multimodaux (MLLM) récents aient réalisé des progrès significatifs en raisonnement multimodal, leurs processus de raisonnement restent principalement centrés sur le texte, ce qui entraîne des performances sous-optimales dans les tâches complexes, à long terme et centrées sur la vision. Dans cet article, nous établissons un nouveau paradigme de raisonnement multimodal génératif et présentons DiffThinker, un cadre de raisonnement basé sur la diffusion. Conceptuellement, DiffThinker reformule le raisonnement multimodal comme une tâche générative native de type image-à-image, atteignant une cohérence logique et une précision spatiale supérieures dans les tâches centrées sur la vision. Nous effectuons une comparaison systématique entre DiffThinker et les MLLM, fournissant la première étude approfondie des caractéristiques intrinsèques de ce paradigme, révélant quatre propriétés fondamentales : l'efficacité, la contrôlabilité, le parallélisme natif et la collaboration. Des expériences approfondies dans quatre domaines (planification séquentielle, optimisation combinatoire, satisfaction de contraintes et configuration spatiale) démontrent que DiffThinker surpasse significativement les modèles propriétaires leaders, notamment GPT-5 (+314,2 %) et Gemini-3-Flash (+111,6 %), ainsi que la baseline fine-tunée Qwen3-VL-32B (+39,0 %), soulignant le raisonnement multimodal génératif comme une approche prometteuse pour le raisonnement centré sur la vision.
English
While recent Multimodal Large Language Models (MLLMs) have attained significant strides in multimodal reasoning, their reasoning processes remain predominantly text-centric, leading to suboptimal performance in complex long-horizon, vision-centric tasks. In this paper, we establish a novel Generative Multimodal Reasoning paradigm and introduce DiffThinker, a diffusion-based reasoning framework. Conceptually, DiffThinker reformulates multimodal reasoning as a native generative image-to-image task, achieving superior logical consistency and spatial precision in vision-centric tasks. We perform a systematic comparison between DiffThinker and MLLMs, providing the first in-depth investigation into the intrinsic characteristics of this paradigm, revealing four core properties: efficiency, controllability, native parallelism, and collaboration. Extensive experiments across four domains (sequential planning, combinatorial optimization, constraint satisfaction, and spatial configuration) demonstrate that DiffThinker significantly outperforms leading closed source models including GPT-5 (+314.2\%) and Gemini-3-Flash (+111.6\%), as well as the fine-tuned Qwen3-VL-32B baseline (+39.0\%), highlighting generative multimodal reasoning as a promising approach for vision-centric reasoning.
PDF173January 3, 2026