D-CORE:複雑なツール利用における大規模推論モデルのタスク分解を促進する仕組み
D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use
February 2, 2026
著者: Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang
cs.AI
要旨
効果的なツール利用と推論能力は、大規模推論モデル(LRM)が複雑な現実世界の問題に対処する上で不可欠な能力である。実証分析を通じて、現在のLRMは複雑なツール利用シナリオにおけるサブタスク分解能力が不足しており、これが「怠惰な推論(Lazy Reasoning)」を引き起こしていることを明らかにした。この問題に対処するため、我々は2段階のトレーニングフレームワークD-CORE(**D**ecomposing tasks and **Co**mposing **Re**asoning processes)を提案する。まず自己蒸留によりLRMのタスク分解推論能力を促進し、続いて多様性認識強化学習(RL)によりLRMの反射的推論能力を回復させる。D-COREは様々なベンチマークとモデル規模において、頑健なツール利用の改善を達成する。BFCLv3における実験では、我々の手法の優位性が実証された:D-CORE-8Bは77.7%の精度を達成し、最高性能の8Bモデルを5.7%上回った。一方、D-CORE-14Bは79.3%で新たなstate-of-the-artを確立し、サイズが5分の1であるにもかかわらず70Bモデルを凌駕する。ソースコードはhttps://github.com/alibaba/EfficientAI で公開されている。
English
Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5times smaller. The source code is available at https://github.com/alibaba/EfficientAI.