ChatPaper.aiChatPaper

D-CORE: Het Stimuleren van Taakdecompositie in Grote Redeneermodellen voor Complex Gereedschapsgebruik

D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

February 2, 2026
Auteurs: Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang
cs.AI

Samenvatting

Effectief gebruik van tools en redeneervaardigheid zijn essentiële capaciteiten voor grote redeneermodellen (LRM's) om complexe problemen uit de praktijk aan te pakken. Via empirische analyse identificeren we dat huidige LRM's niet in staat zijn tot subtask-decompositie in complexe tool-use-scenario's, wat leidt tot Lui Redeneren (Lazy Reasoning). Om dit aan te pakken, stellen we een tweefasen-trainingsraamwerk voor, D-CORE (\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes), dat eerst de taakdecompositie-redeneervaardigheid van LRM's aanwakkert via zelfdistillatie, gevolgd door diversiteitsbewuste reinforcement learning (RL) om het reflectieve redeneervermogen van LRM's te herstellen. D-CORE bereikt robuuste verbeteringen in tool-use op uiteenlopende benchmarks en modelschalen. Experimenten op BFCLv3 tonen de superioriteit van onze methode aan: D-CORE-8B bereikt een nauwkeurigheid van 77,7% en overtreft daarmee het best presterende 8B-model met 5,7%. Tegelijkertijd vestigt D-CORE-14B een nieuwe state-of-the-art op 79,3%, en presteert het beter dan 70B-modellen ondanks een 5 keer kleinere omvang. De broncode is beschikbaar op https://github.com/alibaba/EfficientAI.
English
Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5times smaller. The source code is available at https://github.com/alibaba/EfficientAI.
PDF115February 6, 2026