THOR: Otimização Hierárquica Integrada a Ferramentas via RL para Raciocínio Matemático
THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
September 17, 2025
Autores: Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Jun Du, Quan Liu, Jianqing Gao
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) têm feito progressos notáveis no raciocínio matemático, mas ainda enfrentam dificuldades em tarefas de alta precisão, como computação numérica e manipulação simbólica formal. A integração de ferramentas externas surgiu como uma abordagem promissora para superar essa lacuna. Apesar dos avanços recentes, os métodos existentes lutam com três desafios principais: a construção de dados de raciocínio integrados a ferramentas, a otimização em nível granular e o aprimoramento da inferência. Para superar essas limitações, propomos o THOR (Otimização Hierárquica Integrada a Ferramentas via RL). Primeiro, introduzimos o TIRGen, um pipeline baseado em ator-crítico multiagente para construir conjuntos de dados de alta qualidade de caminhos de raciocínio integrados a ferramentas, alinhados à política e com boa generalização em diversos modelos. Segundo, para realizar uma otimização hierárquica em nível granular, introduzimos uma estratégia de RL que otimiza conjuntamente a resolução de problemas em nível de trajetória e a geração de código em nível de etapa. Isso é motivado por nossa percepção-chave de que o sucesso de uma chamada de ferramenta intermediária é um forte indicador da correção da resposta final. Por fim, o THOR incorpora um mecanismo de autocorreção que aproveita o feedback imediato das ferramentas para revisar dinamicamente caminhos de raciocínio errôneos durante a inferência. Nossa abordagem demonstra forte generalização em diversos modelos, atuando eficazmente tanto em modelos de raciocínio quanto em modelos não relacionados a raciocínio. Ela ainda alcança desempenho de ponta para modelos de escala semelhante em múltiplos benchmarks matemáticos, ao mesmo tempo que oferece melhorias consistentes em benchmarks de código. Nosso código estará publicamente disponível em https://github.com/JingMog/THOR.
English
Large Language Models (LLMs) have made remarkable progress in mathematical
reasoning, but still continue to struggle with high-precision tasks like
numerical computation and formal symbolic manipulation. Integrating external
tools has emerged as a promising approach to bridge this gap. Despite recent
advances, existing methods struggle with three key challenges: constructing
tool-integrated reasoning data, performing fine-grained optimization, and
enhancing inference. To overcome these limitations, we propose THOR
(Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen,
a multi-agent actor-critic-based pipeline for constructing high-quality
datasets of tool-integrated reasoning paths, aligning with the policy and
generalizing well across diverse models. Second, to perform fine-grained
hierarchical optimization, we introduce an RL strategy that jointly optimizes
for both trajectory-level problem solving and step-level code generation. This
is motivated by our key insight that the success of an intermediate tool call
is a strong predictor of the final answer's correctness. Finally, THOR
incorporates a self-correction mechanism that leverages immediate tool feedback
to dynamically revise erroneous reasoning paths during inference. Our approach
demonstrates strong generalization across diverse models, performing
effectively in both reasoning and non-reasoning models. It further achieves
state-of-the-art performance for models of a similar scale on multiple
mathematical benchmarks, while also delivering consistent improvements on code
benchmarks. Our code will be publicly available at
https://github.com/JingMog/THOR.