EndoCoT: Escalonando o Raciocínio em Cadeia Endógeno em Modelos de Difusão

Resumo

Recentemente, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm sido amplamente integrados em arquiteturas de difusão, funcionando principalmente como codificadores de texto para lidar com tarefas complexas, como o raciocínio espacial. No entanto, este paradigma apresenta duas limitações críticas: (i) O codificador de texto do MLLM exibe profundidade de raciocínio insuficiente. A codificação em etapa única não consegue ativar o processo de Cadeia de Pensamento (Chain-of-Thought), que é essencial para que os MLLMs forneçam orientações precisas para tarefas complexas. (ii) A orientação permanece invariável durante o processo de decodificação. A orientação invariável durante a decodificação impede que o Modelo de Transformador de Difusão (DiT) decomponha progressivamente instruções complexas em etapas de remoção de ruído acionáveis, mesmo com codificações MLLM corretas. Para tal, propomos a Cadeia de Pensamento Endógena (EndoCoT), uma nova arquitetura que primeiro ativa o potencial de raciocínio dos MLLMs refinando iterativamente os estados de pensamento latentes por meio de um módulo de orientação de pensamento iterativo e, em seguida, conecta esses estados ao processo de remoção de ruído do DiT. Em segundo lugar, um módulo de ancoragem de pensamento terminal é aplicado para garantir que a trajetória de raciocínio permaneça ancorada na supervisão textual, alinhando o estado final com as respostas verdadeiras (ground-truth). Com estes dois componentes, o codificador de texto do MLLM fornece uma orientação meticulosamente raciocinada, permitindo que o DiT a execute progressivamente e, por fim, resolva tarefas complexas de maneira passo a passo. Avaliações extensas em diversos benchmarks (por exemplo, Maze, TSP, VSP e Sudoku) alcançaram uma precisão média de 92,1%, superando a linha de base mais forte em 8,3 pontos percentuais.

English

Recently, Multimodal Large Language Models (MLLMs) have been widely integrated into diffusion frameworks primarily as text encoders to tackle complex tasks such as spatial reasoning. However, this paradigm suffers from two critical limitations: (i) MLLMs text encoder exhibits insufficient reasoning depth. Single-step encoding fails to activate the Chain-of-Thought process, which is essential for MLLMs to provide accurate guidance for complex tasks. (ii) The guidance remains invariant during the decoding process. Invariant guidance during decoding prevents DiT from progressively decomposing complex instructions into actionable denoising steps, even with correct MLLM encodings. To this end, we propose Endogenous Chain-of-Thought (EndoCoT), a novel framework that first activates MLLMs' reasoning potential by iteratively refining latent thought states through an iterative thought guidance module, and then bridges these states to the DiT's denoising process. Second, a terminal thought grounding module is applied to ensure the reasoning trajectory remains grounded in textual supervision by aligning the final state with ground-truth answers. With these two components, the MLLM text encoder delivers meticulously reasoned guidance, enabling the DiT to execute it progressively and ultimately solve complex tasks in a step-by-step manner. Extensive evaluations across diverse benchmarks (e.g., Maze, TSP, VSP, and Sudoku) achieve an average accuracy of 92.1%, outperforming the strongest baseline by 8.3 percentage points.

EndoCoT: Escalonando o Raciocínio em Cadeia Endógeno em Modelos de Difusão

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Resumo

Support