ChatPaper.aiChatPaper

DiffThinker: 확산 모델 기반 생성형 멀티모달 추론 프레임워크

DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

December 30, 2025
저자: Zefeng He, Xiaoye Qu, Yafu Li, Tong Zhu, Siyuan Huang, Yu Cheng
cs.AI

초록

최근 멀티모달 대규모 언어 모델(MLLM)이 멀티모달 추론에서 상당한 진전을 이루었지만, 그 추론 과정은 여전히 주로 텍스트 중심에 머물러 있어 복잡한 장기적(Long-horizon) 및 시각 중심(Vision-centric) 과제에서 성능이 제한되는 한계를 보인다. 본 논문에서는 새로운 생성형 멀티모달 추론(Generative Multimodal Reasoning) 패러다임을 정립하고, 확산 모델 기반의 추론 프레임워크인 DiffThinker를 소개한다. 개념적으로 DiffThinker는 멀티모달 추론을 본질적인 생성형 이미지-이미지(Image-to-image) 작업으로 재정의하여 시각 중심 과제에서 뛰어난 논리적 일관성과 공간 정밀도를 달성한다. 우리는 DiffThinker와 MLLM 간의 체계적인 비교를 수행함으로써 이 패러다임의 내재적 특성에 대한 첫 심층 분석을 제공하며, 효율성, 제어 가능성, 본질적 병렬성, 협력 능력이라는 네 가지 핵심 속성을 규명한다. 네 가지 영역(순차적 계획, 조합 최적화, 제약 조건 충족, 공간 구성)에 걸친 광범위한 실험을 통해 DiffThinker가 GPT-5(+314.2%) 및 Gemini-3-Flash(+111.6%)를 포함한 주요 클로즈드 소스 모델들과 미세 조정된 Qwen3-VL-32B 기준선(+39.0%)을 모두 크게 능가함을 입증하여, 생성형 멀티모달 추론이 시각 중심 추론을 위한 유망한 접근법임을 강조한다.
English
While recent Multimodal Large Language Models (MLLMs) have attained significant strides in multimodal reasoning, their reasoning processes remain predominantly text-centric, leading to suboptimal performance in complex long-horizon, vision-centric tasks. In this paper, we establish a novel Generative Multimodal Reasoning paradigm and introduce DiffThinker, a diffusion-based reasoning framework. Conceptually, DiffThinker reformulates multimodal reasoning as a native generative image-to-image task, achieving superior logical consistency and spatial precision in vision-centric tasks. We perform a systematic comparison between DiffThinker and MLLMs, providing the first in-depth investigation into the intrinsic characteristics of this paradigm, revealing four core properties: efficiency, controllability, native parallelism, and collaboration. Extensive experiments across four domains (sequential planning, combinatorial optimization, constraint satisfaction, and spatial configuration) demonstrate that DiffThinker significantly outperforms leading closed source models including GPT-5 (+314.2\%) and Gemini-3-Flash (+111.6\%), as well as the fine-tuned Qwen3-VL-32B baseline (+39.0\%), highlighting generative multimodal reasoning as a promising approach for vision-centric reasoning.
PDF173January 3, 2026