ChatPaper.aiChatPaper

D-CORE: Anreize für Aufgabenzerlegung in großen Reasoning-Modellen für komplexe Werkzeugnutzung

D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

February 2, 2026
papers.authors: Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang
cs.AI

papers.abstract

Effektive Werkzeugnutzung und logisches Denken sind wesentliche Fähigkeiten großer Reasoning-Modelle (LRMs), um komplexe reale Probleme zu lösen. Durch empirische Analysen stellen wir fest, dass aktuelle LRMs in komplexen Werkzeugszenarien die Fähigkeit zur Teilschrittzerlegung vermissen lassen, was zu Lazy Reasoning führt. Um dies zu adressieren, schlagen wir ein zweistufiges Trainingsframework D-CORE vor (\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes), das zunächst die Fähigkeit zur Aufgabenzergliederung durch Selbstdistillation fördert, gefolgt von diversitätsbewusstem bestärkendem Lernen (RL), um die reflektierende Reasoning-Fähigkeit der LRMs wiederherzustellen. D-CORE erzielt robuste Verbesserungen der Werkzeugnutzung über verschiedene Benchmarks und Modellgrößen hinweg. Experimente auf BFCLv3 demonstrieren die Überlegenheit unserer Methode: D-CORE-8B erreicht 77,7 % Genauigkeit und übertrifft das beste 8B-Modell um 5,7 %. Gleichzeitig setzt D-CORE-14B mit 79,3 % einen neuen State-of-the-Art und übertrifft 70B-Modelle, obwohl es fünfmal kleiner ist. Der Quellcode ist unter https://github.com/alibaba/EfficientAI verfügbar.
English
Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5times smaller. The source code is available at https://github.com/alibaba/EfficientAI.
PDF115February 6, 2026