Verständnis des werkzeugintegrierten Denkens
Understanding Tool-Integrated Reasoning
August 26, 2025
papers.authors: Heng Lin, Zhongwen Xu
cs.AI
papers.abstract
Wir untersuchen, warum Tool-Integrated Reasoning (TIR) Large Language Models (LLMs) leistungsfähiger macht. Obwohl LLMs, die mit Werkzeugen wie Python-Code-Interpretern integriert sind, vielversprechend sind, fehlte bisher eine fundierte Theorie, die erklärt, warum dieses Paradigma effektiv ist. Diese Arbeit liefert den ersten formalen Beweis, dass TIR die Fähigkeiten eines LLMs grundlegend erweitert. Wir zeigen, dass Werkzeuge eine strikte Erweiterung des empirischen und praktisch umsetzbaren Unterstützungsbereichs des Modells ermöglichen, wodurch die Fähigkeitsgrenze von reinen Textmodellen durchbrochen wird, indem Problemlösungsstrategien freigesetzt werden, die sonst unmöglich oder unhandlich umständlich wären. Um das Modellverhalten zu steuern, ohne die Trainingsstabilität und Leistung zu beeinträchtigen, führen wir auch Advantage Shaping Policy Optimization (ASPO) ein, einen neuartigen Algorithmus, der die Advantage-Funktion direkt modifiziert, um das Policy-Verhalten zu lenken. Wir führen umfassende Experimente auf anspruchsvollen mathematischen Benchmarks durch, wobei wir einen Python-Interpreter als externes Werkzeug nutzen. Unsere Ergebnisse zeigen, dass das TIR-Modell seinen reinen Text-Gegenpart auf der pass@k-Metrik deutlich übertrifft. Entscheidend ist, dass dieser Vorteil nicht auf rechenintensive Probleme beschränkt ist, sondern sich auch auf solche erstreckt, die erhebliche abstrakte Einsicht erfordern. Wir identifizieren weiterhin die entstehenden kognitiven Muster, die illustrieren, wie Modelle lernen, mit Werkzeugen zu denken. Schließlich berichten wir über ein verbessertes Werkzeugnutzungsverhalten mit frühem Code-Aufruf und deutlich interaktiveren Wechseln mit ASPO. Insgesamt liefert unsere Arbeit die erste fundierte Erklärung für den Erfolg von TIR und verlagert den Fokus von der bloßen Tatsache, dass Werkzeuge funktionieren, darauf, warum und wie sie leistungsfähigeres Denken ermöglichen.
English
We study why Tool-Integrated Reasoning (TIR) makes Large Language Models
(LLMs) more capable. While LLMs integrated with tools like Python code
interpreters show great promise, a principled theory explaining why this
paradigm is effective has been missing. This work provides the first formal
proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that
tools enable a strict expansion of the model's empirical and feasible support,
breaking the capability ceiling of pure-text models by unlocking
problem-solving strategies that are otherwise impossible or intractably
verbose. To guide model behavior without compromising training stability and
performance, we also introduce Advantage Shaping Policy Optimization (ASPO), a
novel algorithm that directly modifies the advantage function to guide the
policy behavior. We conduct comprehensive experiments on challenging
mathematical benchmarks, leveraging a Python interpreter as the external tool.
Our results show that the TIR model decisively outperforms its pure-text
counterpart on the pass@k metric. Crucially, this advantage is not confined to
computationally-intensive problems but extends to those requiring significant
abstract insight. We further identify the emergent cognitive patterns that
illustrate how models learn to think with tools. Finally, we report improved
tool usage behavior with early code invocation and much more interactive turns
with ASPO. Overall, our work provides the first principled explanation for
TIR's success, shifting the focus from the mere fact that tools work to why and
how they enable more powerful reasoning.