ChatPaper.aiChatPaper

分割統治的推論による大規模言語モデルの学習は、テスト時のスケーラビリティを向上させる

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

February 2, 2026
著者: Xiao Liang, Zhong-Zhi Li, Zhenghao Lin, Eric Hancheng Jiang, Hengyuan Zhang, Yelong Shen, Kai-Wei Chang, Ying Nian Wu, Yeyun Gong, Weizhu Chen
cs.AI

要旨

大規模言語モデル(LLM)は、段階的な連鎖思考(CoT)推論を通じて強力な推論能力を発揮することが実証されている。しかし、モデル能力の限界に直面した場合、CoTは不十分であることが多く、その厳密に逐次的な性質がテスト時の拡張性を制約する。潜在的な代替手法として、分割統治(DAC)推論が挙げられる。これは複雑な問題を部分問題に分解し、解決策のより効果的な探索を可能にする。有望ではあるものの、我々の分析により、汎用的な学習後調整とDAC型推論の間には根本的な不整合が存在し、この可能性を十分に活用するモデルの能力が制限されていることが明らかになった。このギャップを埋め、最も困難なタスクにおけるLLMの推論能力を完全に解放するため、我々はDAC型推論能力を強化するエンドツーエンドの強化学習(RL)フレームワークを提案する。各ステップで、ポリシーは問題を一連の部分問題に分解し、それらを逐次的に解決し、部分問題の解を条件として元の問題に対処する。分解と解決の両方がRL訓練に統合される。同等の訓練条件下では、我々のDAC型フレームワークはモデルに高い性能上限と強力なテスト時拡張性をもたらし、競技レベルのベンチマークにおいてPass@1で8.6%、Pass@32で6.3% CoTを上回った。
English
Large language models (LLMs) have demonstrated strong reasoning capabilities through step-by-step chain-of-thought (CoT) reasoning. Nevertheless, at the limits of model capability, CoT often proves insufficient, and its strictly sequential nature constrains test-time scalability. A potential alternative is divide-and-conquer (DAC) reasoning, which decomposes a complex problem into subproblems to facilitate more effective exploration of the solution. Although promising, our analysis reveals a fundamental misalignment between general-purpose post-training and DAC-style inference, which limits the model's capacity to fully leverage this potential. To bridge this gap and fully unlock LLMs' reasoning capabilities on the most challenging tasks, we propose an end-to-end reinforcement learning (RL) framework to enhance their DAC-style reasoning capacity. At each step, the policy decomposes a problem into a group of subproblems, solves them sequentially, and addresses the original one conditioned on the subproblem solutions, with both decomposition and solution integrated into RL training. Under comparable training, our DAC-style framework endows the model with a higher performance ceiling and stronger test-time scalability, surpassing CoT by 8.6% in Pass@1 and 6.3% in Pass@32 on competition-level benchmarks.
PDF82February 7, 2026