Inzicht in Gereedschapsgeïntegreerd Redeneren

Samenvatting

We onderzoeken waarom Tool-Integrated Reasoning (TIR) Large Language Models (LLMs) bekwaamer maakt. Hoewel LLMs die geïntegreerd zijn met tools zoals Python-code-interpreters veelbelovend zijn, ontbrak tot nu toe een principieel theorie die verklaart waarom dit paradigma effectief is. Dit werk biedt het eerste formele bewijs dat TIR de mogelijkheden van een LLM fundamenteel uitbreidt. We tonen aan dat tools een strikte uitbreiding mogelijk maken van het empirische en haalbare ondersteuningsbereik van het model, waardoor het plafond van pure-tekstmodellen wordt doorbroken door probleemoplossende strategieën mogelijk te maken die anders onmogelijk of onhandelbaar omslachtig zouden zijn. Om het modelgedrag te sturen zonder de trainingsstabiliteit en prestaties in gevaar te brengen, introduceren we ook Advantage Shaping Policy Optimization (ASPO), een nieuw algoritme dat de advantage-functie direct aanpast om het beleidsgedrag te sturen. We voeren uitgebreide experimenten uit op uitdagende wiskundige benchmarks, waarbij we een Python-interpreter als externe tool gebruiken. Onze resultaten laten zien dat het TIR-model beslissend beter presteert dan zijn pure-tekst-tegenhanger op de pass@k-metric. Cruciaal is dat dit voordeel niet beperkt blijft tot rekenintensieve problemen, maar zich ook uitstrekt tot problemen die aanzienlijk abstract inzicht vereisen. We identificeren verder de opkomende cognitieve patronen die illustreren hoe modellen leren denken met tools. Ten slotte rapporteren we verbeterd toolgebruiksgedrag met vroege code-aanroeping en veel interactievere beurten met ASPO. Over het geheel genomen biedt ons werk de eerste principiële verklaring voor het succes van TIR, waarbij de focus verschuift van het loutere feit dat tools werken naar waarom en hoe ze krachtiger redeneren mogelijk maken.

English

We study why Tool-Integrated Reasoning (TIR) makes Large Language Models (LLMs) more capable. While LLMs integrated with tools like Python code interpreters show great promise, a principled theory explaining why this paradigm is effective has been missing. This work provides the first formal proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that tools enable a strict expansion of the model's empirical and feasible support, breaking the capability ceiling of pure-text models by unlocking problem-solving strategies that are otherwise impossible or intractably verbose. To guide model behavior without compromising training stability and performance, we also introduce Advantage Shaping Policy Optimization (ASPO), a novel algorithm that directly modifies the advantage function to guide the policy behavior. We conduct comprehensive experiments on challenging mathematical benchmarks, leveraging a Python interpreter as the external tool. Our results show that the TIR model decisively outperforms its pure-text counterpart on the pass@k metric. Crucially, this advantage is not confined to computationally-intensive problems but extends to those requiring significant abstract insight. We further identify the emergent cognitive patterns that illustrate how models learn to think with tools. Finally, we report improved tool usage behavior with early code invocation and much more interactive turns with ASPO. Overall, our work provides the first principled explanation for TIR's success, shifting the focus from the mere fact that tools work to why and how they enable more powerful reasoning.

Inzicht in Gereedschapsgeïntegreerd Redeneren

Understanding Tool-Integrated Reasoning

Samenvatting

Support