EndoCoT: Scalabilità del Ragionamento a Catena Endogeno nei Modelli di Diffusione
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models
March 12, 2026
Autori: Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang
cs.AI
Abstract
Recentemente, i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) sono stati ampiamente integrati nei framework di diffusione principalmente come encoder di testo per affrontare compiti complessi come il ragionamento spaziale. Tuttavia, questo paradigma presenta due limitazioni critiche: (i) l'encoder testuale degli MLLM mostra una profondità di ragionamento insufficiente. La codifica a passo singolo non riesce ad attivare il processo Catena di Pensiero (Chain-of-Thought), essenziale affinché gli MLLM forniscano una guida accurata per compiti complessi. (ii) La guida rimane invariata durante il processo di decodifica. Una guida invariante durante la decodifica impedisce al DiT di scomporre progressivamente istruzioni complesse in passi di denoising azionabili, anche con codifiche MLLM corrette.
A tal fine, proponiamo Endogenous Chain-of-Thought (EndoCoT), un framework innovativo che, in primo luogo, attiva il potenziale di ragionamento degli MLLM raffinando iterativamente gli stati di pensiero latente attraverso un modulo di guida del pensiero iterativo, e poi collega questi stati al processo di denoising del DiT. In secondo luogo, viene applicato un modulo di ancoraggio del pensiero terminale per garantire che la traiettoria di ragionamento rimanga ancorata alla supervisione testuale, allineando lo stato finale con le risposte corrette (ground-truth).
Con questi due componenti, l'encoder testuale MLLM fornisce una guida meticolosamente ragionata, consentendo al DiT di eseguirla progressivamente e risolvere infine compiti complessi in modo graduale. Valutazioni estensive su diversi benchmark (ad es. Maze, TSP, VSP e Sudoku) hanno raggiunto un'accuratezza media del 92,1%, superando il baseline più forte di 8,3 punti percentuali.
English
Recently, Multimodal Large Language Models (MLLMs) have been widely integrated into diffusion frameworks primarily as text encoders to tackle complex tasks such as spatial reasoning. However, this paradigm suffers from two critical limitations: (i) MLLMs text encoder exhibits insufficient reasoning depth. Single-step encoding fails to activate the Chain-of-Thought process, which is essential for MLLMs to provide accurate guidance for complex tasks. (ii) The guidance remains invariant during the decoding process. Invariant guidance during decoding prevents DiT from progressively decomposing complex instructions into actionable denoising steps, even with correct MLLM encodings. To this end, we propose Endogenous Chain-of-Thought (EndoCoT), a novel framework that first activates MLLMs' reasoning potential by iteratively refining latent thought states through an iterative thought guidance module, and then bridges these states to the DiT's denoising process. Second, a terminal thought grounding module is applied to ensure the reasoning trajectory remains grounded in textual supervision by aligning the final state with ground-truth answers. With these two components, the MLLM text encoder delivers meticulously reasoned guidance, enabling the DiT to execute it progressively and ultimately solve complex tasks in a step-by-step manner. Extensive evaluations across diverse benchmarks (e.g., Maze, TSP, VSP, and Sudoku) achieve an average accuracy of 92.1%, outperforming the strongest baseline by 8.3 percentage points.