ChatPaper.aiChatPaper

D-CORE: Incentivando la Descomposición de Tareas en Modelos de Razonamiento de Gran Escala para el Uso Complejo de Herramientas

D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

February 2, 2026
Autores: Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang
cs.AI

Resumen

El uso efectivo de herramientas y el razonamiento son capacidades esenciales para los grandes modelos de razonamiento (LRM) a fin de abordar problemas complejos del mundo real. Mediante análisis empírico, identificamos que los LRM actuales carecen de la capacidad de descomposición de subtareas en escenarios complejos de uso de herramientas, lo que conduce a un Razonamiento Perezoso. Para abordar esto, proponemos un marco de entrenamiento de dos etapas, D-CORE (Descomposición de tareas y Composición de procesos de Razonamiento), que primero incentiva la capacidad de razonamiento por descomposición de tareas de los LRM mediante auto-destilación, seguido de un aprendizaje por refuerzo (RL) consciente de la diversidad para restaurar la capacidad de razonamiento reflexivo de los LRM. D-CORE logra mejoras robustas en el uso de herramientas en diversos benchmarks y escalas de modelos. Los experimentos en BFCLv3 demuestran la superioridad de nuestro método: D-CORE-8B alcanza un 77.7% de precisión, superando al mejor modelo de 8B en un 5.7%. Mientras tanto, D-CORE-14B establece un nuevo estado del arte con un 79.3%, superando a modelos de 70B a pesar de ser 5 veces más pequeño. El código fuente está disponible en https://github.com/alibaba/EfficientAI.
English
Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5times smaller. The source code is available at https://github.com/alibaba/EfficientAI.
PDF115February 6, 2026