THOR : Optimisation Hiérarchique Intégrée d'Outils par Apprentissage par Renforcement pour le Raisonnement Mathématique

papers.abstract

Les modèles de langage à grande échelle (LLMs) ont réalisé des progrès remarquables en raisonnement mathématique, mais continuent de rencontrer des difficultés avec des tâches de haute précision comme le calcul numérique et la manipulation formelle de symboles. L'intégration d'outils externes s'est révélée être une approche prometteuse pour combler cet écart. Malgré les avancées récentes, les méthodes existantes peinent à relever trois défis majeurs : la construction de données de raisonnement intégrant des outils, l'optimisation fine et l'amélioration de l'inférence. Pour surmonter ces limitations, nous proposons THOR (Tool-Integrated Hierarchical Optimization via RL). Premièrement, nous introduisons TIRGen, un pipeline basé sur un acteur-critique multi-agent pour construire des ensembles de données de haute qualité de chemins de raisonnement intégrant des outils, alignés sur la politique et généralisant bien à travers divers modèles. Deuxièmement, pour réaliser une optimisation hiérarchique fine, nous introduisons une stratégie de RL qui optimise conjointement la résolution de problèmes au niveau de la trajectoire et la génération de code au niveau des étapes. Cela est motivé par notre idée clé que le succès d'un appel d'outil intermédiaire est un fort prédicteur de la justesse de la réponse finale. Enfin, THOR intègre un mécanisme d'auto-correction qui exploite les retours immédiats des outils pour réviser dynamiquement les chemins de raisonnement erronés pendant l'inférence. Notre approche démontre une forte généralisation à travers divers modèles, performant efficacement aussi bien dans les modèles de raisonnement que dans les modèles non dédiés au raisonnement. Elle atteint en outre des performances de pointe pour des modèles de taille similaire sur plusieurs benchmarks mathématiques, tout en apportant des améliorations constantes sur les benchmarks de code. Notre code sera disponible publiquement à l'adresse https://github.com/JingMog/THOR.

English

Large Language Models (LLMs) have made remarkable progress in mathematical reasoning, but still continue to struggle with high-precision tasks like numerical computation and formal symbolic manipulation. Integrating external tools has emerged as a promising approach to bridge this gap. Despite recent advances, existing methods struggle with three key challenges: constructing tool-integrated reasoning data, performing fine-grained optimization, and enhancing inference. To overcome these limitations, we propose THOR (Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen, a multi-agent actor-critic-based pipeline for constructing high-quality datasets of tool-integrated reasoning paths, aligning with the policy and generalizing well across diverse models. Second, to perform fine-grained hierarchical optimization, we introduce an RL strategy that jointly optimizes for both trajectory-level problem solving and step-level code generation. This is motivated by our key insight that the success of an intermediate tool call is a strong predictor of the final answer's correctness. Finally, THOR incorporates a self-correction mechanism that leverages immediate tool feedback to dynamically revise erroneous reasoning paths during inference. Our approach demonstrates strong generalization across diverse models, performing effectively in both reasoning and non-reasoning models. It further achieves state-of-the-art performance for models of a similar scale on multiple mathematical benchmarks, while also delivering consistent improvements on code benchmarks. Our code will be publicly available at https://github.com/JingMog/THOR.

THOR : Optimisation Hiérarchique Intégrée d'Outils par Apprentissage par Renforcement pour le Raisonnement Mathématique

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

papers.abstract

Support