DiffThinker: Rumando ao Raciocínio Multimodal Generativo com Modelos de Difusão

Resumo

Embora os Modelos de Linguagem Multimodais (MLLMs) recentes tenham alcançado avanços significativos no raciocínio multimodal, seus processos de raciocínio permanecem predominantemente centrados em texto, resultando em desempenho abaixo do ideal em tarefas visuais complexas de longo horizonte. Neste artigo, estabelecemos um novo paradigma de Raciocínio Multimodal Generativo e introduzimos o DiffThinker, uma estrutura de raciocínio baseada em difusão. Conceitualmente, o DiffThinker reformula o raciocínio multimodal como uma tarefa generativa nativa de imagem para imagem, alcançando consistência lógica superior e precisão espacial em tarefas centradas na visão. Realizamos uma comparação sistemática entre o DiffThinker e os MLLMs, fornecendo a primeira investigação aprofundada sobre as características intrínsecas deste paradigma, revelando quatro propriedades centrais: eficiência, controlabilidade, paralelismo nativo e colaboração. Experimentos extensos em quatro domínios (planeamento sequencial, otimização combinatória, satisfação de restrições e configuração espacial) demonstram que o DiffThinker supera significativamente os principais modelos proprietários, incluindo GPT-5 (+314,2%) e Gemini-3-Flash (+111,6%), bem como a linha de base ajustada do Qwen3-VL-32B (+39,0%), destacando o raciocínio multimodal generativo como uma abordagem promissora para o raciocínio centrado na visão.

English

While recent Multimodal Large Language Models (MLLMs) have attained significant strides in multimodal reasoning, their reasoning processes remain predominantly text-centric, leading to suboptimal performance in complex long-horizon, vision-centric tasks. In this paper, we establish a novel Generative Multimodal Reasoning paradigm and introduce DiffThinker, a diffusion-based reasoning framework. Conceptually, DiffThinker reformulates multimodal reasoning as a native generative image-to-image task, achieving superior logical consistency and spatial precision in vision-centric tasks. We perform a systematic comparison between DiffThinker and MLLMs, providing the first in-depth investigation into the intrinsic characteristics of this paradigm, revealing four core properties: efficiency, controllability, native parallelism, and collaboration. Extensive experiments across four domains (sequential planning, combinatorial optimization, constraint satisfaction, and spatial configuration) demonstrate that DiffThinker significantly outperforms leading closed source models including GPT-5 (+314.2\%) and Gemini-3-Flash (+111.6\%), as well as the fine-tuned Qwen3-VL-32B baseline (+39.0\%), highlighting generative multimodal reasoning as a promising approach for vision-centric reasoning.

DiffThinker: Rumando ao Raciocínio Multimodal Generativo com Modelos de Difusão

DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

Resumo

Support