D-CORE: Incentivizzare la Scomposizione dei Compiti nei Modelli di Ragionamento di Grande Scala per l'Uso Complesso di Strumenti
D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use
February 2, 2026
Autori: Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang
cs.AI
Abstract
L'uso efficace degli strumenti e il ragionamento sono capacità essenziali per i grandi modelli di ragionamento (LRM) per affrontare problemi complessi del mondo reale. Attraverso un'analisi empirica, identifichiamo che gli attuali LRM mancano della capacità di scomposizione dei sottocompiti in scenari complessi di utilizzo degli strumenti, portando a un Ragionamento Pigro. Per risolvere questo problema, proponiamo un framework di addestramento in due fasi, D-CORE (scomposizione dei compiti e composizione dei processi di ragionamento), che prima incentiva la capacità di ragionamento per la scomposizione dei compiti degli LRM tramite auto-distillazione, seguita da un apprendimento per rinforzo (RL) consapevole della diversità per ripristinare la capacità di ragionamento riflessivo degli LRM. D-CORE ottiene miglioramenti robusti nell'uso degli strumenti su diversi benchmark e scale di modelli. Esperimenti su BFCLv3 dimostrano la superiorità del nostro metodo: D-CORE-8B raggiunge il 77,7% di accuratezza, superando il miglior modello da 8B del 5,7%. Nel frattempo, D-CORE-14B stabilisce un nuovo stato dell'arte al 79,3%, superando i modelli da 70B nonostante sia 5 volte più piccolo. Il codice sorgente è disponibile all'indirizzo https://github.com/alibaba/EfficientAI.
English
Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5times smaller. The source code is available at https://github.com/alibaba/EfficientAI.