Comprensione del Ragionamento Integrato con Strumenti

Abstract

Studiamo perché il Ragionamento Integrato con Strumenti (Tool-Integrated Reasoning, TIR) rende i Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs) più capaci. Sebbene i LLMs integrati con strumenti come interpreti di codice Python mostrino un grande potenziale, è mancata una teoria principiata che spieghi perché questo paradigma sia efficace. Questo lavoro fornisce la prima dimostrazione formale che il TIR espande fondamentalmente le capacità di un LLM. Dimostriamo che gli strumenti consentono un'espansione rigorosa del supporto empirico e fattibile del modello, superando il limite delle capacità dei modelli basati esclusivamente su testo, sbloccando strategie di risoluzione dei problemi che altrimenti sarebbero impossibili o eccessivamente verbose. Per guidare il comportamento del modello senza compromettere la stabilità e le prestazioni dell'addestramento, introduciamo anche l'Optimizzazione della Politica con Modellazione del Vantaggio (Advantage Shaping Policy Optimization, ASPO), un nuovo algoritmo che modifica direttamente la funzione del vantaggio per guidare il comportamento della politica. Condividiamo esperimenti completi su benchmark matematici complessi, utilizzando un interprete Python come strumento esterno. I nostri risultati mostrano che il modello TIR supera decisamente la sua controparte basata solo su testo nella metrica pass@k. Crucialmente, questo vantaggio non è limitato a problemi computazionalmente intensivi, ma si estende a quelli che richiedono un significativo insight astratto. Identifichiamo inoltre i modelli cognitivi emergenti che illustrano come i modelli imparano a pensare con gli strumenti. Infine, riportiamo un comportamento migliorato nell'uso degli strumenti con l'invocazione precoce del codice e turni molto più interattivi con ASPO. Nel complesso, il nostro lavoro fornisce la prima spiegazione principiata del successo del TIR, spostando l'attenzione dal semplice fatto che gli strumenti funzionano al perché e al come essi abilitano un ragionamento più potente.

English

We study why Tool-Integrated Reasoning (TIR) makes Large Language Models (LLMs) more capable. While LLMs integrated with tools like Python code interpreters show great promise, a principled theory explaining why this paradigm is effective has been missing. This work provides the first formal proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that tools enable a strict expansion of the model's empirical and feasible support, breaking the capability ceiling of pure-text models by unlocking problem-solving strategies that are otherwise impossible or intractably verbose. To guide model behavior without compromising training stability and performance, we also introduce Advantage Shaping Policy Optimization (ASPO), a novel algorithm that directly modifies the advantage function to guide the policy behavior. We conduct comprehensive experiments on challenging mathematical benchmarks, leveraging a Python interpreter as the external tool. Our results show that the TIR model decisively outperforms its pure-text counterpart on the pass@k metric. Crucially, this advantage is not confined to computationally-intensive problems but extends to those requiring significant abstract insight. We further identify the emergent cognitive patterns that illustrate how models learn to think with tools. Finally, we report improved tool usage behavior with early code invocation and much more interactive turns with ASPO. Overall, our work provides the first principled explanation for TIR's success, shifting the focus from the mere fact that tools work to why and how they enable more powerful reasoning.

Comprensione del Ragionamento Integrato con Strumenti

Understanding Tool-Integrated Reasoning

Abstract

Support