Compréhension du Raisonnement Intégré aux Outils
Understanding Tool-Integrated Reasoning
August 26, 2025
papers.authors: Heng Lin, Zhongwen Xu
cs.AI
papers.abstract
Nous étudions pourquoi le Raisonnement Intégré avec Outils (TIR) rend les Modèles de Langage à Grande Échelle (LLMs) plus performants. Bien que les LLMs intégrés avec des outils comme les interpréteurs de code Python montrent un grand potentiel, une théorie rigoureuse expliquant pourquoi ce paradigme est efficace faisait défaut. Ce travail fournit la première preuve formelle que le TIR étend fondamentalement les capacités d'un LLM. Nous démontrons que les outils permettent une expansion stricte du support empirique et réalisable du modèle, brisant le plafond de capacité des modèles purement textuels en débloquant des stratégies de résolution de problèmes qui seraient autrement impossibles ou d'une verbosité ingérable. Pour guider le comportement du modèle sans compromettre la stabilité de l'entraînement et la performance, nous introduisons également l'Optimisation de Politique par Façonnage d'Avantage (ASPO), un nouvel algorithme qui modifie directement la fonction d'avantage pour guider le comportement de la politique. Nous menons des expériences approfondies sur des benchmarks mathématiques complexes, en utilisant un interpréteur Python comme outil externe. Nos résultats montrent que le modèle TIR surpasse de manière décisive son homologue purement textuel sur la métrique pass@k. Crucialement, cet avantage ne se limite pas aux problèmes intensifs en calcul, mais s'étend à ceux nécessitant une importante perspicacité abstraite. Nous identifions en outre les schémas cognitifs émergents qui illustrent comment les modèles apprennent à penser avec des outils. Enfin, nous rapportons un comportement amélioré dans l'utilisation des outils avec une invocation précoce du code et des tours beaucoup plus interactifs avec l'ASPO. Globalement, notre travail fournit la première explication rigoureuse du succès du TIR, déplaçant l'attention du simple fait que les outils fonctionnent vers pourquoi et comment ils permettent un raisonnement plus puissant.
English
We study why Tool-Integrated Reasoning (TIR) makes Large Language Models
(LLMs) more capable. While LLMs integrated with tools like Python code
interpreters show great promise, a principled theory explaining why this
paradigm is effective has been missing. This work provides the first formal
proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that
tools enable a strict expansion of the model's empirical and feasible support,
breaking the capability ceiling of pure-text models by unlocking
problem-solving strategies that are otherwise impossible or intractably
verbose. To guide model behavior without compromising training stability and
performance, we also introduce Advantage Shaping Policy Optimization (ASPO), a
novel algorithm that directly modifies the advantage function to guide the
policy behavior. We conduct comprehensive experiments on challenging
mathematical benchmarks, leveraging a Python interpreter as the external tool.
Our results show that the TIR model decisively outperforms its pure-text
counterpart on the pass@k metric. Crucially, this advantage is not confined to
computationally-intensive problems but extends to those requiring significant
abstract insight. We further identify the emergent cognitive patterns that
illustrate how models learn to think with tools. Finally, we report improved
tool usage behavior with early code invocation and much more interactive turns
with ASPO. Overall, our work provides the first principled explanation for
TIR's success, shifting the focus from the mere fact that tools work to why and
how they enable more powerful reasoning.