EndoCoT: Skalierung endogener Chain-of-Thought-Denkprozesse in Diffusionsmodellen
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models
March 12, 2026
Autoren: Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang
cs.AI
Zusammenfassung
Kürzlich wurden multimodale große Sprachmodelle (MLLMs) verstärkt in Diffusions-Frameworks integriert, hauptsächlich als Text-Encoder, um komplexe Aufgaben wie räumliches Schließen zu bewältigen. Dieses Paradigma weist jedoch zwei kritische Einschränkungen auf: (i) Der MLLM-Text-Encoder zeigt eine unzureichende Reasoning-Tiefe. Eine Einzelschritt-Kodierung aktiviert nicht den Chain-of-Thought-Prozess, der für MLLMs essentiell ist, um präzise Anleitungen für komplexe Aufgaben zu liefern. (ii) Die Anleitung bleibt während des Decodierungsprozesses invariant. Invariante Anleitung verhindert, dass das Diffusions-Transformer-Modell (DiT) komplexe Instruktionen schrittweise in ausführbare Denoising-Schritte zerlegt, selbst bei korrekten MLLM-Kodierungen. Daher schlagen wir Endogenous Chain-of-Thought (EndoCoT) vor, ein neuartiges Framework, das erstens das Reasoning-Potenzial von MLLMs aktiviert, indem latente Gedankenzustände durch ein iteratives Gedankenführungsmodul verfeinert werden, und zweitens diese Zustände mit dem Denoising-Prozess des DiT verbindet. Zusätzlich wird ein Terminal-Thought-Grounding-Modul eingesetzt, um sicherzustellen, dass die Reasoning-Trajektorie durch eine Ausrichtung des Endzustands an Ground-Truth-Antworten textuell verankert bleibt. Durch diese beiden Komponenten liefert der MLLM-Text-Encoder sorgfältig durchdachte Anleitungen, die es dem DiT ermöglichen, diese progressiv auszuführen und komplexe Aufgaben schrittweise zu lösen. Umfangreiche Evaluierungen über diverse Benchmarks (z.B. Maze, TSP, VSP und Sudoku) erzielen eine durchschnittliche Genauigkeit von 92,1 % und übertreffen damit die stärkste Baseline um 8,3 Prozentpunkte.
English
Recently, Multimodal Large Language Models (MLLMs) have been widely integrated into diffusion frameworks primarily as text encoders to tackle complex tasks such as spatial reasoning. However, this paradigm suffers from two critical limitations: (i) MLLMs text encoder exhibits insufficient reasoning depth. Single-step encoding fails to activate the Chain-of-Thought process, which is essential for MLLMs to provide accurate guidance for complex tasks. (ii) The guidance remains invariant during the decoding process. Invariant guidance during decoding prevents DiT from progressively decomposing complex instructions into actionable denoising steps, even with correct MLLM encodings. To this end, we propose Endogenous Chain-of-Thought (EndoCoT), a novel framework that first activates MLLMs' reasoning potential by iteratively refining latent thought states through an iterative thought guidance module, and then bridges these states to the DiT's denoising process. Second, a terminal thought grounding module is applied to ensure the reasoning trajectory remains grounded in textual supervision by aligning the final state with ground-truth answers. With these two components, the MLLM text encoder delivers meticulously reasoned guidance, enabling the DiT to execute it progressively and ultimately solve complex tasks in a step-by-step manner. Extensive evaluations across diverse benchmarks (e.g., Maze, TSP, VSP, and Sudoku) achieve an average accuracy of 92.1%, outperforming the strongest baseline by 8.3 percentage points.