ChatPaper.aiChatPaper

D-CORE: 복잡한 도구 사용을 위한 대규모 추론 모델에서 과제 분해를 유도하는 방법

D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

February 2, 2026
저자: Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang
cs.AI

초록

효율적인 도구 활용과 추론 능력은 대규모 추론 모델(LRM)이 복잡한 현실 문제를 해결하기 위한 핵심 역량입니다. 실증 분석을 통해 우리는 현재 LRM이 복잡한 도구 사용 시나리오에서 하위 작업 분해 능력이 부족하여 '게으른 추론(Lazy Reasoning)'이 발생함을 확인했습니다. 이를 해결하기 위해 우리는 두 단계의 학습 프레임워크 D-CORE(작업 분해 및 추론 과정 구성)를 제안합니다. 이는 먼저 자기 지식 증류를 통해 LRM의 작업 분해 추론 능력을 강화한 후, 다양성 인지 강화 학습을 통해 LRM의 성찰적 추론 능력을 회복시키는 방식입니다. D-CORE는 다양한 벤치마크와 모델 규모에서 견고한 도구 사용 성능 향상을 달성했습니다. BFCLv3에서의 실험 결과는 우리 방법의 우수성을 입증했습니다: D-CORE-8B는 77.7%의 정확도로 최고 성능의 8B 모델을 5.7% 능가했으며, D-CORE-14B는 79.3%의 정확도로 새로운 최첨단 기록을 세워 규모가 5배 큰 70B 모델보다 뛰어난 성능을 보였습니다. 소스 코드는 https://github.com/alibaba/EfficientAI에서 확인할 수 있습니다.
English
Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5times smaller. The source code is available at https://github.com/alibaba/EfficientAI.
PDF115February 6, 2026