ChatPaper.aiChatPaper

EndoCoT: 확산 모델에서의 내인적 사고 연쇄 추론 확장

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

March 12, 2026
저자: Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang
cs.AI

초록

최근 멀티모달 대규모 언어 모델(MLLM)이 주로 텍스트 인코더로 확산 프레임워크에 광범위하게 통합되어 공간 추론과 같은 복잡한 작업을 해결하고 있습니다. 그러나 이러한 패러다임은 두 가지 중요한 한계를 지닙니다: (i) MLLM 텍스트 인코더의 추론 깊이가 불충분합니다. 단일 단계 인코딩은 사고의 연쇄 과정을 활성화하지 못하는데, 이 과정은 MLLM이 복잡한 작업에 대한 정확한 지침을 제공하기 위해 필수적입니다. (ii) 디코딩 과정 동안 지침이 변하지 않습니다. 디코딩 과정에서 불변하는 지침은 올바른 MLLM 인코딩이 있더라도 DiT가 복잡한 지시사항을 실행 가능한 노이즈 제거 단계로 점진적으로 분해하는 것을 방해합니다. 이를 위해 우리는 Endogenous Chain-of-Thought(EndoCoT)를 제안합니다. 이 새로운 프레임워크는 먼저 반복적 사고 지도 모듈을 통해 잠재 사고 상태를 반복적으로 개선하여 MLLM의 추론 잠재력을 활성화한 후, 이러한 상태를 DiT의 노이즈 제거 과정과 연결합니다. 두 번째로, 최종 사고 기반 모듈은 최종 상태를 실제 정답과 정렬함으로써 추론 궤적이 텍스트 supervision에 기반을 둔 상태를 유지하도록 보장합니다. 이 두 가지 구성 요소를 통해 MLLM 텍스트 인코더는 세심하게 추론된 지도를 제공하며, DiT가 이를 점진적으로 실행하고 궁극적으로 복잡한 작업을 단계별 방식으로 해결할 수 있게 합니다. 다양한 벤치마크(예: Maze, TSP, VSP, Sudoku)에 걸친 광범위한 평가에서 평균 정확도 92.1%를 달성하여 가장 강력한 기준선을 8.3% 포인트 앞섰습니다.
English
Recently, Multimodal Large Language Models (MLLMs) have been widely integrated into diffusion frameworks primarily as text encoders to tackle complex tasks such as spatial reasoning. However, this paradigm suffers from two critical limitations: (i) MLLMs text encoder exhibits insufficient reasoning depth. Single-step encoding fails to activate the Chain-of-Thought process, which is essential for MLLMs to provide accurate guidance for complex tasks. (ii) The guidance remains invariant during the decoding process. Invariant guidance during decoding prevents DiT from progressively decomposing complex instructions into actionable denoising steps, even with correct MLLM encodings. To this end, we propose Endogenous Chain-of-Thought (EndoCoT), a novel framework that first activates MLLMs' reasoning potential by iteratively refining latent thought states through an iterative thought guidance module, and then bridges these states to the DiT's denoising process. Second, a terminal thought grounding module is applied to ensure the reasoning trajectory remains grounded in textual supervision by aligning the final state with ground-truth answers. With these two components, the MLLM text encoder delivers meticulously reasoned guidance, enabling the DiT to execute it progressively and ultimately solve complex tasks in a step-by-step manner. Extensive evaluations across diverse benchmarks (e.g., Maze, TSP, VSP, and Sudoku) achieve an average accuracy of 92.1%, outperforming the strongest baseline by 8.3 percentage points.
PDF92March 15, 2026