ChatPaper.aiChatPaper

EndoCoT: 拡散モデルにおける内生的思考連鎖推論のスケーリング

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

March 12, 2026
著者: Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang
cs.AI

要旨

近年、マルチモーダル大規模言語モデル(MLLM)は、主にテキストエンコーダとして拡散モデルフレームワークに広く統合され、空間推論などの複雑なタスクに取り組んでいる。しかし、このパラダイムには2つの重大な限界がある。(i) MLLMテキストエンコーダの推論深度が不十分である。単一ステップのエンコーディングでは、MLLMが複雑なタスクに対して正確なガイダンスを提供するために不可欠な連鎖思考プロセスを活性化できない。(ii) デコーディング過程においてガイダンスが不変である。不変のガイダンスは、たとえ正しいMLLMエンコーディングが得られた場合でも、DiTが複雑な指示を実行可能なノイズ除去ステップへと段階的に分解することを妨げる。 そこで我々は、内生的連鎖思考(EndoCoT)という新規フレームワークを提案する。本フレームワークでは、まず反復的思考ガイダンスモジュールを通じて潜在的な思考状態を反復的に精緻化することでMLLMの推論可能性を活性化し、次にこれらの状態をDiTのノイズ除去過程に接続する。第二に、終端思考接地モジュールを適用し、最終状態を正解と一致させることで、推論の軌跡がテキストによる監督に基づいたものであり続けることを保証する。これら2つの構成要素により、MLLMテキストエンコーダは緻密に推論されたガイダンスを提供し、DiTがそれを段階的に実行して最終的に複雑なタスクを段階的に解決することを可能にする。多様なベンチマーク(Maze, TSP, VSP, Sudokuなど)における広範な評価では、平均精度92.1%を達成し、最強のベースラインを8.3パーセントポイント上回った。
English
Recently, Multimodal Large Language Models (MLLMs) have been widely integrated into diffusion frameworks primarily as text encoders to tackle complex tasks such as spatial reasoning. However, this paradigm suffers from two critical limitations: (i) MLLMs text encoder exhibits insufficient reasoning depth. Single-step encoding fails to activate the Chain-of-Thought process, which is essential for MLLMs to provide accurate guidance for complex tasks. (ii) The guidance remains invariant during the decoding process. Invariant guidance during decoding prevents DiT from progressively decomposing complex instructions into actionable denoising steps, even with correct MLLM encodings. To this end, we propose Endogenous Chain-of-Thought (EndoCoT), a novel framework that first activates MLLMs' reasoning potential by iteratively refining latent thought states through an iterative thought guidance module, and then bridges these states to the DiT's denoising process. Second, a terminal thought grounding module is applied to ensure the reasoning trajectory remains grounded in textual supervision by aligning the final state with ground-truth answers. With these two components, the MLLM text encoder delivers meticulously reasoned guidance, enabling the DiT to execute it progressively and ultimately solve complex tasks in a step-by-step manner. Extensive evaluations across diverse benchmarks (e.g., Maze, TSP, VSP, and Sudoku) achieve an average accuracy of 92.1%, outperforming the strongest baseline by 8.3 percentage points.
PDF92March 15, 2026