ChatPaper.aiChatPaper

D-CORE: Incentivando a Decomposição de Tarefas em Grandes Modelos de Raciocínio para Uso Complexo de Ferramentas

D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

February 2, 2026
Autores: Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang
cs.AI

Resumo

O uso eficaz de ferramentas e o raciocínio são capacidades essenciais para os grandes modelos de raciocínio (LRMs) resolverem problemas complexos do mundo real. Através de análise empírica, identificamos que os LRMs atuais carecem da capacidade de decomposição de subtarefas em cenários complexos de uso de ferramentas, levando a um Raciocínio Preguiçoso. Para resolver isso, propomos uma estrutura de treinamento em duas etapas, D-CORE (Decompondo tarefas e Compondo processos de Raciocínio), que primeiro incentiva a capacidade de raciocínio por decomposição de tarefas dos LRMs via auto-distilação, seguida por aprendizado por reforço com consciência de diversidade (RL) para restaurar a capacidade de raciocínio reflexivo dos LRMs. O D-CORE alcança melhorias robustas no uso de ferramentas em diversos benchmarks e escalas de modelo. Experimentos no BFCLv3 demonstram a superioridade do nosso método: D-CORE-8B atinge 77,7% de precisão, superando o melhor modelo de 8B em 5,7%. Enquanto isso, o D-CORE-14B estabelece um novo estado da arte em 79,3%, superando modelos de 70B apesar de ser 5 vezes menor. O código-fonte está disponível em https://github.com/alibaba/EfficientAI.
English
Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5times smaller. The source code is available at https://github.com/alibaba/EfficientAI.
PDF127February 8, 2026