THOR: Иерархическая оптимизация с интеграцией инструментов через обучение с подкреплением для математических рассуждений
THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
September 17, 2025
Авторы: Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Jun Du, Quan Liu, Jianqing Gao
cs.AI
Аннотация
Крупные языковые модели (LLMs) достигли значительных успехов в математических рассуждениях, но по-прежнему испытывают трудности с задачами, требующими высокой точности, такими как численные вычисления и формальные символьные преобразования. Интеграция внешних инструментов стала перспективным подходом для преодоления этого разрыва. Несмотря на недавние достижения, существующие методы сталкиваются с тремя ключевыми проблемами: создание данных для рассуждений с использованием инструментов, тонкая оптимизация и улучшение вывода. Чтобы преодолеть эти ограничения, мы предлагаем THOR (Tool-Integrated Hierarchical Optimization via RL). Во-первых, мы представляем TIRGen — многоагентный конвейер на основе актор-критик для создания высококачественных наборов данных с путями рассуждений, интегрирующими инструменты, которые согласуются с политикой и хорошо обобщаются на различные модели. Во-вторых, для выполнения тонкой иерархической оптимизации мы вводим стратегию обучения с подкреплением (RL), которая совместно оптимизирует решение задач на уровне траектории и генерацию кода на уровне шага. Это мотивировано нашим ключевым наблюдением: успешность промежуточного вызова инструмента является сильным предиктором правильности конечного ответа. Наконец, THOR включает механизм самокоррекции, который использует мгновенную обратную связь от инструментов для динамического исправления ошибочных путей рассуждений во время вывода. Наш подход демонстрирует сильную обобщаемость на различные модели, эффективно работая как в моделях с рассуждениями, так и без них. Он также достигает наилучших результатов для моделей сопоставимого масштаба на нескольких математических бенчмарках, одновременно обеспечивая стабильные улучшения на бенчмарках для кода. Наш код будет общедоступен по адресу https://github.com/JingMog/THOR.
English
Large Language Models (LLMs) have made remarkable progress in mathematical
reasoning, but still continue to struggle with high-precision tasks like
numerical computation and formal symbolic manipulation. Integrating external
tools has emerged as a promising approach to bridge this gap. Despite recent
advances, existing methods struggle with three key challenges: constructing
tool-integrated reasoning data, performing fine-grained optimization, and
enhancing inference. To overcome these limitations, we propose THOR
(Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen,
a multi-agent actor-critic-based pipeline for constructing high-quality
datasets of tool-integrated reasoning paths, aligning with the policy and
generalizing well across diverse models. Second, to perform fine-grained
hierarchical optimization, we introduce an RL strategy that jointly optimizes
for both trajectory-level problem solving and step-level code generation. This
is motivated by our key insight that the success of an intermediate tool call
is a strong predictor of the final answer's correctness. Finally, THOR
incorporates a self-correction mechanism that leverages immediate tool feedback
to dynamically revise erroneous reasoning paths during inference. Our approach
demonstrates strong generalization across diverse models, performing
effectively in both reasoning and non-reasoning models. It further achieves
state-of-the-art performance for models of a similar scale on multiple
mathematical benchmarks, while also delivering consistent improvements on code
benchmarks. Our code will be publicly available at
https://github.com/JingMog/THOR.