Comprensión del Razonamiento Integrado con Herramientas
Understanding Tool-Integrated Reasoning
August 26, 2025
Autores: Heng Lin, Zhongwen Xu
cs.AI
Resumen
Estudiamos por qué el Razonamiento Integrado con Herramientas (TIR, por sus siglas en inglés) hace que los Modelos de Lenguaje de Gran Escala (LLMs) sean más capaces. Aunque los LLMs integrados con herramientas como intérpretes de código Python muestran un gran potencial, ha faltado una teoría fundamentada que explique por qué este paradigma es efectivo. Este trabajo proporciona la primera demostración formal de que el TIR expande fundamentalmente las capacidades de un LLM. Demostramos que las herramientas permiten una expansión estricta del soporte empírico y factible del modelo, rompiendo el techo de capacidad de los modelos de texto puro al desbloquear estrategias de resolución de problemas que, de otro modo, serían imposibles o prohibitivamente verbosas. Para guiar el comportamiento del modelo sin comprometer la estabilidad y el rendimiento del entrenamiento, también introducimos la Optimización de Políticas con Formación de Ventaja (ASPO, por sus siglas en inglés), un algoritmo novedoso que modifica directamente la función de ventaja para guiar el comportamiento de la política. Realizamos experimentos exhaustivos en desafiantes benchmarks matemáticos, utilizando un intérprete de Python como herramienta externa. Nuestros resultados muestran que el modelo TIR supera decisivamente a su contraparte de texto puro en la métrica pass@k. Crucialmente, esta ventaja no se limita a problemas computacionalmente intensivos, sino que se extiende a aquellos que requieren un importante nivel de abstracción. Además, identificamos los patrones cognitivos emergentes que ilustran cómo los modelos aprenden a pensar con herramientas. Finalmente, reportamos un comportamiento mejorado en el uso de herramientas con una invocación temprana de código y turnos mucho más interactivos con ASPO. En general, nuestro trabajo proporciona la primera explicación fundamentada del éxito del TIR, desplazando el enfoque desde el mero hecho de que las herramientas funcionan hacia el por qué y cómo permiten un razonamiento más potente.
English
We study why Tool-Integrated Reasoning (TIR) makes Large Language Models
(LLMs) more capable. While LLMs integrated with tools like Python code
interpreters show great promise, a principled theory explaining why this
paradigm is effective has been missing. This work provides the first formal
proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that
tools enable a strict expansion of the model's empirical and feasible support,
breaking the capability ceiling of pure-text models by unlocking
problem-solving strategies that are otherwise impossible or intractably
verbose. To guide model behavior without compromising training stability and
performance, we also introduce Advantage Shaping Policy Optimization (ASPO), a
novel algorithm that directly modifies the advantage function to guide the
policy behavior. We conduct comprehensive experiments on challenging
mathematical benchmarks, leveraging a Python interpreter as the external tool.
Our results show that the TIR model decisively outperforms its pure-text
counterpart on the pass@k metric. Crucially, this advantage is not confined to
computationally-intensive problems but extends to those requiring significant
abstract insight. We further identify the emergent cognitive patterns that
illustrate how models learn to think with tools. Finally, we report improved
tool usage behavior with early code invocation and much more interactive turns
with ASPO. Overall, our work provides the first principled explanation for
TIR's success, shifting the focus from the mere fact that tools work to why and
how they enable more powerful reasoning.