D-CORE : Incitation à la décomposition des tâches dans les grands modèles de raisonnement pour une utilisation complexe d'outils
D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use
February 2, 2026
papers.authors: Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang
cs.AI
papers.abstract
L'utilisation efficace d'outils et le raisonnement sont des capacités essentielles pour les grands modèles de raisonnement (LRM) afin de résoudre des problèmes complexes du monde réel. Par une analyse empirique, nous identifions que les LRM actuels manquent de capacité de décomposition en sous-tâches dans des scénarios complexes d'utilisation d'outils, conduisant à un Raisonnement Paresseux. Pour y remédier, nous proposons un cadre d'entraînement en deux étapes, D-CORE (\textbf{D}écomposition des tâches et \textbf{Co}mposition des processus de \textbf{Re}aisonnement), qui incite d'abord la capacité de raisonnement par décomposition de tâches des LRM via l'autodistillation, suivie d'un apprentissage par renforcement tenant compte de la diversité (RL) pour restaurer la capacité de raisonnement réflexif des LRM. D-CORE permet des améliorations robustes de l'utilisation d'outils sur diverses benchmarks et échelles de modèles. Les expériences sur BFCLv3 démontrent la supériorité de notre méthode : D-CORE-8B atteint une précision de 77,7 %, surpassant le meilleur modèle 8B de 5,7 %. Parallèlement, D-CORE-14B établit un nouvel état de l'art à 79,3 %, surpassant les modèles 70B bien qu'étant 5 fois plus petit. Le code source est disponible à l'adresse https://github.com/alibaba/EfficientAI.
English
Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5times smaller. The source code is available at https://github.com/alibaba/EfficientAI.