THOR: Optimización Jerárquica Integrada con Herramientas mediante Aprendizaje por Refuerzo para Razonamiento Matemático
THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
September 17, 2025
Autores: Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Jun Du, Quan Liu, Jianqing Gao
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances notables en razonamiento matemático, pero aún enfrentan dificultades en tareas de alta precisión, como el cálculo numérico y la manipulación simbólica formal. La integración de herramientas externas ha surgido como un enfoque prometedor para cerrar esta brecha. A pesar de los recientes avances, los métodos existentes enfrentan tres desafíos clave: la construcción de datos de razonamiento integrados con herramientas, la optimización de grano fino y la mejora de la inferencia. Para superar estas limitaciones, proponemos THOR (Optimización Jerárquica Integrada con Herramientas mediante RL). Primero, presentamos TIRGen, una canalización basada en actores-críticos multiagente para construir conjuntos de datos de alta calidad de trayectorias de razonamiento integradas con herramientas, alineadas con la política y que generalizan bien en diversos modelos. Segundo, para realizar una optimización jerárquica de grano fino, introducimos una estrategia de RL que optimiza conjuntamente tanto la resolución de problemas a nivel de trayectoria como la generación de código a nivel de paso. Esto se basa en nuestra idea clave de que el éxito de una llamada a una herramienta intermedia es un fuerte predictor de la corrección de la respuesta final. Finalmente, THOR incorpora un mecanismo de autocorrección que aprovecha la retroalimentación inmediata de las herramientas para revisar dinámicamente las trayectorias de razonamiento erróneas durante la inferencia. Nuestro enfoque demuestra una fuerte generalización en diversos modelos, funcionando eficazmente tanto en modelos de razonamiento como en aquellos que no lo son. Además, logra un rendimiento de vanguardia en modelos de escala similar en múltiples benchmarks matemáticos, al tiempo que ofrece mejoras consistentes en benchmarks de código. Nuestro código estará disponible públicamente en https://github.com/JingMog/THOR.
English
Large Language Models (LLMs) have made remarkable progress in mathematical
reasoning, but still continue to struggle with high-precision tasks like
numerical computation and formal symbolic manipulation. Integrating external
tools has emerged as a promising approach to bridge this gap. Despite recent
advances, existing methods struggle with three key challenges: constructing
tool-integrated reasoning data, performing fine-grained optimization, and
enhancing inference. To overcome these limitations, we propose THOR
(Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen,
a multi-agent actor-critic-based pipeline for constructing high-quality
datasets of tool-integrated reasoning paths, aligning with the policy and
generalizing well across diverse models. Second, to perform fine-grained
hierarchical optimization, we introduce an RL strategy that jointly optimizes
for both trajectory-level problem solving and step-level code generation. This
is motivated by our key insight that the success of an intermediate tool call
is a strong predictor of the final answer's correctness. Finally, THOR
incorporates a self-correction mechanism that leverages immediate tool feedback
to dynamically revise erroneous reasoning paths during inference. Our approach
demonstrates strong generalization across diverse models, performing
effectively in both reasoning and non-reasoning models. It further achieves
state-of-the-art performance for models of a similar scale on multiple
mathematical benchmarks, while also delivering consistent improvements on code
benchmarks. Our code will be publicly available at
https://github.com/JingMog/THOR.