THOR : Optimisation Hiérarchique Intégrée d'Outils par Apprentissage par Renforcement pour le Raisonnement Mathématique
THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
September 17, 2025
papers.authors: Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Jun Du, Quan Liu, Jianqing Gao
cs.AI
papers.abstract
Les modèles de langage à grande échelle (LLMs) ont réalisé des progrès remarquables en raisonnement mathématique, mais continuent de rencontrer des difficultés avec des tâches de haute précision comme le calcul numérique et la manipulation formelle de symboles. L'intégration d'outils externes s'est révélée être une approche prometteuse pour combler cet écart. Malgré les avancées récentes, les méthodes existantes peinent à relever trois défis majeurs : la construction de données de raisonnement intégrant des outils, l'optimisation fine et l'amélioration de l'inférence. Pour surmonter ces limitations, nous proposons THOR (Tool-Integrated Hierarchical Optimization via RL). Premièrement, nous introduisons TIRGen, un pipeline basé sur un acteur-critique multi-agent pour construire des ensembles de données de haute qualité de chemins de raisonnement intégrant des outils, alignés sur la politique et généralisant bien à travers divers modèles. Deuxièmement, pour réaliser une optimisation hiérarchique fine, nous introduisons une stratégie de RL qui optimise conjointement la résolution de problèmes au niveau de la trajectoire et la génération de code au niveau des étapes. Cela est motivé par notre idée clé que le succès d'un appel d'outil intermédiaire est un fort prédicteur de la justesse de la réponse finale. Enfin, THOR intègre un mécanisme d'auto-correction qui exploite les retours immédiats des outils pour réviser dynamiquement les chemins de raisonnement erronés pendant l'inférence. Notre approche démontre une forte généralisation à travers divers modèles, performant efficacement aussi bien dans les modèles de raisonnement que dans les modèles non dédiés au raisonnement. Elle atteint en outre des performances de pointe pour des modèles de taille similaire sur plusieurs benchmarks mathématiques, tout en apportant des améliorations constantes sur les benchmarks de code. Notre code sera disponible publiquement à l'adresse https://github.com/JingMog/THOR.
English
Large Language Models (LLMs) have made remarkable progress in mathematical
reasoning, but still continue to struggle with high-precision tasks like
numerical computation and formal symbolic manipulation. Integrating external
tools has emerged as a promising approach to bridge this gap. Despite recent
advances, existing methods struggle with three key challenges: constructing
tool-integrated reasoning data, performing fine-grained optimization, and
enhancing inference. To overcome these limitations, we propose THOR
(Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen,
a multi-agent actor-critic-based pipeline for constructing high-quality
datasets of tool-integrated reasoning paths, aligning with the policy and
generalizing well across diverse models. Second, to perform fine-grained
hierarchical optimization, we introduce an RL strategy that jointly optimizes
for both trajectory-level problem solving and step-level code generation. This
is motivated by our key insight that the success of an intermediate tool call
is a strong predictor of the final answer's correctness. Finally, THOR
incorporates a self-correction mechanism that leverages immediate tool feedback
to dynamically revise erroneous reasoning paths during inference. Our approach
demonstrates strong generalization across diverse models, performing
effectively in both reasoning and non-reasoning models. It further achieves
state-of-the-art performance for models of a similar scale on multiple
mathematical benchmarks, while also delivering consistent improvements on code
benchmarks. Our code will be publicly available at
https://github.com/JingMog/THOR.