THOR: Ottimizzazione Gerarchica Integrata con Strumenti tramite RL per il Ragionamento Matematico

Abstract

I Large Language Model (LLM) hanno compiuto progressi significativi nel ragionamento matematico, ma continuano a incontrare difficoltà in compiti ad alta precisione come il calcolo numerico e la manipolazione simbolica formale. L'integrazione di strumenti esterni è emersa come un approccio promettente per colmare questa lacuna. Nonostante i recenti progressi, i metodi esistenti affrontano tre sfide principali: la costruzione di dati di ragionamento integrati con strumenti, l'ottimizzazione fine-granularità e il miglioramento dell'inferenza. Per superare queste limitazioni, proponiamo THOR (Tool-Integrated Hierarchical Optimization via RL). In primo luogo, introduciamo TIRGen, una pipeline basata su attore-critico multi-agente per costruire dataset di alta qualità di percorsi di ragionamento integrati con strumenti, allineati alla politica e con una buona generalizzazione su modelli diversi. In secondo luogo, per eseguire un'ottimizzazione gerarchica fine-granularità, introduciamo una strategia RL che ottimizza congiuntamente sia la risoluzione di problemi a livello di traiettoria che la generazione di codice a livello di passo. Questo è motivato dalla nostra intuizione chiave che il successo di una chiamata a uno strumento intermedio è un forte indicatore della correttezza della risposta finale. Infine, THOR incorpora un meccanismo di autocorrezione che sfrutta il feedback immediato degli strumenti per rivedere dinamicamente i percorsi di ragionamento errati durante l'inferenza. Il nostro approccio dimostra una forte generalizzazione su modelli diversi, funzionando efficacemente sia in modelli di ragionamento che non. Inoltre, raggiunge prestazioni all'avanguardia per modelli di scala simile su molteplici benchmark matematici, garantendo anche miglioramenti consistenti sui benchmark di codice. Il nostro codice sarà disponibile pubblicamente su https://github.com/JingMog/THOR.

English

Large Language Models (LLMs) have made remarkable progress in mathematical reasoning, but still continue to struggle with high-precision tasks like numerical computation and formal symbolic manipulation. Integrating external tools has emerged as a promising approach to bridge this gap. Despite recent advances, existing methods struggle with three key challenges: constructing tool-integrated reasoning data, performing fine-grained optimization, and enhancing inference. To overcome these limitations, we propose THOR (Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen, a multi-agent actor-critic-based pipeline for constructing high-quality datasets of tool-integrated reasoning paths, aligning with the policy and generalizing well across diverse models. Second, to perform fine-grained hierarchical optimization, we introduce an RL strategy that jointly optimizes for both trajectory-level problem solving and step-level code generation. This is motivated by our key insight that the success of an intermediate tool call is a strong predictor of the final answer's correctness. Finally, THOR incorporates a self-correction mechanism that leverages immediate tool feedback to dynamically revise erroneous reasoning paths during inference. Our approach demonstrates strong generalization across diverse models, performing effectively in both reasoning and non-reasoning models. It further achieves state-of-the-art performance for models of a similar scale on multiple mathematical benchmarks, while also delivering consistent improvements on code benchmarks. Our code will be publicly available at https://github.com/JingMog/THOR.

THOR: Ottimizzazione Gerarchica Integrata con Strumenti tramite RL per il Ragionamento Matematico

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

Abstract

Support