THOR: Ottimizzazione Gerarchica Integrata con Strumenti tramite RL per il Ragionamento Matematico
THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
September 17, 2025
Autori: Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Jun Du, Quan Liu, Jianqing Gao
cs.AI
Abstract
I Large Language Model (LLM) hanno compiuto progressi significativi nel ragionamento matematico, ma continuano a incontrare difficoltà in compiti ad alta precisione come il calcolo numerico e la manipolazione simbolica formale. L'integrazione di strumenti esterni è emersa come un approccio promettente per colmare questa lacuna. Nonostante i recenti progressi, i metodi esistenti affrontano tre sfide principali: la costruzione di dati di ragionamento integrati con strumenti, l'ottimizzazione fine-granularità e il miglioramento dell'inferenza. Per superare queste limitazioni, proponiamo THOR (Tool-Integrated Hierarchical Optimization via RL). In primo luogo, introduciamo TIRGen, una pipeline basata su attore-critico multi-agente per costruire dataset di alta qualità di percorsi di ragionamento integrati con strumenti, allineati alla politica e con una buona generalizzazione su modelli diversi. In secondo luogo, per eseguire un'ottimizzazione gerarchica fine-granularità, introduciamo una strategia RL che ottimizza congiuntamente sia la risoluzione di problemi a livello di traiettoria che la generazione di codice a livello di passo. Questo è motivato dalla nostra intuizione chiave che il successo di una chiamata a uno strumento intermedio è un forte indicatore della correttezza della risposta finale. Infine, THOR incorpora un meccanismo di autocorrezione che sfrutta il feedback immediato degli strumenti per rivedere dinamicamente i percorsi di ragionamento errati durante l'inferenza. Il nostro approccio dimostra una forte generalizzazione su modelli diversi, funzionando efficacemente sia in modelli di ragionamento che non. Inoltre, raggiunge prestazioni all'avanguardia per modelli di scala simile su molteplici benchmark matematici, garantendo anche miglioramenti consistenti sui benchmark di codice. Il nostro codice sarà disponibile pubblicamente su https://github.com/JingMog/THOR.
English
Large Language Models (LLMs) have made remarkable progress in mathematical
reasoning, but still continue to struggle with high-precision tasks like
numerical computation and formal symbolic manipulation. Integrating external
tools has emerged as a promising approach to bridge this gap. Despite recent
advances, existing methods struggle with three key challenges: constructing
tool-integrated reasoning data, performing fine-grained optimization, and
enhancing inference. To overcome these limitations, we propose THOR
(Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen,
a multi-agent actor-critic-based pipeline for constructing high-quality
datasets of tool-integrated reasoning paths, aligning with the policy and
generalizing well across diverse models. Second, to perform fine-grained
hierarchical optimization, we introduce an RL strategy that jointly optimizes
for both trajectory-level problem solving and step-level code generation. This
is motivated by our key insight that the success of an intermediate tool call
is a strong predictor of the final answer's correctness. Finally, THOR
incorporates a self-correction mechanism that leverages immediate tool feedback
to dynamically revise erroneous reasoning paths during inference. Our approach
demonstrates strong generalization across diverse models, performing
effectively in both reasoning and non-reasoning models. It further achieves
state-of-the-art performance for models of a similar scale on multiple
mathematical benchmarks, while also delivering consistent improvements on code
benchmarks. Our code will be publicly available at
https://github.com/JingMog/THOR.