EndoCoT: Escalando el Razonamiento Endógeno de Cadena de Pensamiento en Modelos de Difusión
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models
March 12, 2026
Autores: Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang
cs.AI
Resumen
Recientemente, los Modelos de Lenguaje Grandes Multimodales (MLLM) se han integrado ampliamente en los marcos de difusión principalmente como codificadores de texto para abordar tareas complejas como el razonamiento espacial. Sin embargo, este paradigma presenta dos limitaciones críticas: (i) El codificador de texto del MLLM exhibe una profundidad de razonamiento insuficiente. La codificación en un solo paso no logra activar el proceso de Cadena de Pensamiento, que es esencial para que los MLLM proporcionen una guía precisa para tareas complejas. (ii) La guía permanece invariable durante el proceso de decodificación. Una guía invariable durante la decodificación impide que el DiT descomponga progresivamente instrucciones complejas en pasos de eliminación de ruido accionables, incluso con codificaciones MLLM correctas. Para ello, proponemos Cadena de Pensamiento Endógena (EndoCoT), un marco novedoso que primero activa el potencial de razonamiento de los MLLM refinando iterativamente los estados de pensamiento latentes a través de un módulo de guía de pensamiento iterativo, y luego conecta estos estados con el proceso de eliminación de ruido del DiT. En segundo lugar, se aplica un módulo de anclaje de pensamiento terminal para garantizar que la trayectoria de razonamiento permanezca anclada en la supervisión textual alineando el estado final con las respuestas de referencia. Con estos dos componentes, el codificador de texto del MLLM proporciona una guía meticulosamente razonada, permitiendo al DiT ejecutarla progresivamente y resolver así tareas complejas de manera paso a paso. Evaluaciones exhaustivas en diversos puntos de referencia (por ejemplo, Laberinto, TSP, VSP y Sudoku) logran una precisión promedio del 92,1%, superando a la línea base más fuerte en 8,3 puntos porcentuales.
English
Recently, Multimodal Large Language Models (MLLMs) have been widely integrated into diffusion frameworks primarily as text encoders to tackle complex tasks such as spatial reasoning. However, this paradigm suffers from two critical limitations: (i) MLLMs text encoder exhibits insufficient reasoning depth. Single-step encoding fails to activate the Chain-of-Thought process, which is essential for MLLMs to provide accurate guidance for complex tasks. (ii) The guidance remains invariant during the decoding process. Invariant guidance during decoding prevents DiT from progressively decomposing complex instructions into actionable denoising steps, even with correct MLLM encodings. To this end, we propose Endogenous Chain-of-Thought (EndoCoT), a novel framework that first activates MLLMs' reasoning potential by iteratively refining latent thought states through an iterative thought guidance module, and then bridges these states to the DiT's denoising process. Second, a terminal thought grounding module is applied to ensure the reasoning trajectory remains grounded in textual supervision by aligning the final state with ground-truth answers. With these two components, the MLLM text encoder delivers meticulously reasoned guidance, enabling the DiT to execute it progressively and ultimately solve complex tasks in a step-by-step manner. Extensive evaluations across diverse benchmarks (e.g., Maze, TSP, VSP, and Sudoku) achieve an average accuracy of 92.1%, outperforming the strongest baseline by 8.3 percentage points.