EndoCoT : Mise à l'échelle du raisonnement par chaîne de pensée endogène dans les modèles de diffusion
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models
March 12, 2026
Auteurs: Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang
cs.AI
Résumé
Récemment, les modèles de langage multimodaux de grande taille (MLLM) ont été largement intégrés aux architectures de diffusion, principalement en tant qu’encodeurs de texte, pour traiter des tâches complexes telles que le raisonnement spatial. Cependant, ce paradigme présente deux limites majeures : (i) la profondeur de raisonnement de l’encodeur de texte des MLLM est insuffisante. Un encodage en une seule étape ne permet pas d’activer le processus de chaîne de pensée (Chain-of-Thought), pourtant essentiel pour que les MLLM fournissent des guidages précis dans des tâches complexes. (ii) Le guidage reste invariant pendant le processus de décodage. Cette invariance empêche le modèle de diffusion transformeur (DiT) de décomposer progressivement des instructions complexes en étapes de débruitage actionnables, même avec un encodage MLLM correct. Pour remédier à ces problèmes, nous proposons Endogenous Chain-of-Thought (EndoCoT), un nouveau cadre qui active d’abord le potentiel de raisonnement des MLLM en affinant itérativement les états de pensée latents via un module de guidage itératif, puis relie ces états au processus de débruitage du DiT. Ensuite, un module d’ancrage terminal est appliqué pour garantir que la trajectoire de raisonnement reste ancrée dans la supervision textuelle, en alignant l’état final avec les réponses de référence. Grâce à ces deux composants, l’encodeur de texte du MLLM délivre un guidage finement raisonné, permettant au DiT de l’exécuter progressivement et ainsi de résoudre des tâches complexes étape par étape. Des évaluations approfondies sur divers benchmarks (par exemple, Maze, TSP, VSP et Sudoku) atteignent une précision moyenne de 92,1 %, surpassant la baseline la plus performante de 8,3 points de pourcentage.
English
Recently, Multimodal Large Language Models (MLLMs) have been widely integrated into diffusion frameworks primarily as text encoders to tackle complex tasks such as spatial reasoning. However, this paradigm suffers from two critical limitations: (i) MLLMs text encoder exhibits insufficient reasoning depth. Single-step encoding fails to activate the Chain-of-Thought process, which is essential for MLLMs to provide accurate guidance for complex tasks. (ii) The guidance remains invariant during the decoding process. Invariant guidance during decoding prevents DiT from progressively decomposing complex instructions into actionable denoising steps, even with correct MLLM encodings. To this end, we propose Endogenous Chain-of-Thought (EndoCoT), a novel framework that first activates MLLMs' reasoning potential by iteratively refining latent thought states through an iterative thought guidance module, and then bridges these states to the DiT's denoising process. Second, a terminal thought grounding module is applied to ensure the reasoning trajectory remains grounded in textual supervision by aligning the final state with ground-truth answers. With these two components, the MLLM text encoder delivers meticulously reasoned guidance, enabling the DiT to execute it progressively and ultimately solve complex tasks in a step-by-step manner. Extensive evaluations across diverse benchmarks (e.g., Maze, TSP, VSP, and Sudoku) achieve an average accuracy of 92.1%, outperforming the strongest baseline by 8.3 percentage points.