EndoCoT: Масштабирование эндогенного цепочечного мышления в диффузионных моделях
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models
March 12, 2026
Авторы: Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang
cs.AI
Аннотация
В последнее время мультимодальные большие языковые модели (MБЯМ) широко интегрируются в диффузионные архитектуры, в основном в качестве текстовых энкодеров, для решения сложных задач, таких как пространственные рассуждения. Однако данная парадигма страдает от двух существенных ограничений: (i) Текстовый энкодер МБЯМ демонстрирует недостаточную глубину рассуждений. Одношаговое кодирование не активирует процесс цепочки мыслей (Chain-of-Thought), который необходим МБЯМ для предоставления точных указаний при решении сложных задач. (ii) Руководство остается неизменным в процессе декодирования. Неизменность руководства во время декодирования не позволяет диффузионному трансформеру (DiT) прогрессивно декомпозировать сложные инструкции на выполнимые шаги шумоподавления, даже при наличии корректных кодировок от МБЯМ. Для решения этих проблем мы предлагаем Эндогенную Цепочку Мыслей (EndoCoT) — новую архитектуру, которая, во-первых, активирует потенциал рассуждений МБЯМ путем итеративного уточнения латентных состояний мысли с помощью модуля итеративного мысленного руководства, а затем связывает эти состояния с процессом шумоподавления в DiT. Во-вторых, применяется модуль терминального закрепления мысли, который обеспечивает привязку траектории рассуждений к текстовой супервизии путем выравнивания конечного состояния с верными ответами. Благодаря этим двум компонентам текстовый энкодер МБЯМ предоставляет тщательно продуманные указания, позволяя DiT выполнять их прогрессивно и, в конечном счете, решать сложные задачи пошагово. Обширные оценки на различных наборах данных (например, Maze, TSP, VSP и Sudoku) показали среднюю точность 92.1%, что на 8.3 процентных пункта превышает результат сильнейшего базового метода.
English
Recently, Multimodal Large Language Models (MLLMs) have been widely integrated into diffusion frameworks primarily as text encoders to tackle complex tasks such as spatial reasoning. However, this paradigm suffers from two critical limitations: (i) MLLMs text encoder exhibits insufficient reasoning depth. Single-step encoding fails to activate the Chain-of-Thought process, which is essential for MLLMs to provide accurate guidance for complex tasks. (ii) The guidance remains invariant during the decoding process. Invariant guidance during decoding prevents DiT from progressively decomposing complex instructions into actionable denoising steps, even with correct MLLM encodings. To this end, we propose Endogenous Chain-of-Thought (EndoCoT), a novel framework that first activates MLLMs' reasoning potential by iteratively refining latent thought states through an iterative thought guidance module, and then bridges these states to the DiT's denoising process. Second, a terminal thought grounding module is applied to ensure the reasoning trajectory remains grounded in textual supervision by aligning the final state with ground-truth answers. With these two components, the MLLM text encoder delivers meticulously reasoned guidance, enabling the DiT to execute it progressively and ultimately solve complex tasks in a step-by-step manner. Extensive evaluations across diverse benchmarks (e.g., Maze, TSP, VSP, and Sudoku) achieve an average accuracy of 92.1%, outperforming the strongest baseline by 8.3 percentage points.