ChatPaper.aiChatPaper

D-CORE: Стимулирование декомпозиции задач в больших моделях рассуждений для сложного использования инструментов

D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

February 2, 2026
Авторы: Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang
cs.AI

Аннотация

Эффективное использование инструментов и логические рассуждения являются ключевыми способностями больших моделей рассуждений~(БМР) для решения сложных практических задач. Эмпирический анализ показывает, что современные БМР не обладают способностью декомпозиции подзадач в сложных сценариях использования инструментов, что приводит к феномену «ленивого рассуждения». Для решения этой проблемы мы предлагаем двухэтапную обучающую структуру D-CORE~(\textbf{D}екомпозиция задач и \textbf{Ко}мпозиция процессов \textbf{Р}ассуждения), которая сначала стимулирует способность БМР к рассуждению через декомпозицию задач с помощью самодистилляции, а затем применяет RL-обучение с учетом разнообразия~(обучение с подкреплением) для восстановления рефлексивной способности рассуждений. D-CORE демонстрирует устойчивое улучшение использования инструментов в различных тестах и масштабах моделей. Эксперименты на BFCLv3 подтверждают превосходство нашего метода: D-CORE-8B достигает точности 77,7%, превосходя лучшую 8B-модель на 5,7%. При этом D-CORE-14B устанавливает новый рекорд в 79,3%, превосходя модели объемом 70B, несмотря на пятикратно меньший размер. Исходный код доступен по адресу https://github.com/alibaba/EfficientAI.
English
Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5times smaller. The source code is available at https://github.com/alibaba/EfficientAI.
PDF115February 6, 2026