Compreendendo o Raciocínio Integrado a Ferramentas
Understanding Tool-Integrated Reasoning
August 26, 2025
Autores: Heng Lin, Zhongwen Xu
cs.AI
Resumo
Estudamos por que o Raciocínio Integrado com Ferramentas (TIR, na sigla em inglês) torna os Modelos de Linguagem de Grande Escala (LLMs) mais capazes. Embora os LLMs integrados com ferramentas como interpretadores de código Python mostrem grande potencial, uma teoria fundamentada que explique por que esse paradigma é eficaz tem sido ausente. Este trabalho fornece a primeira prova formal de que o TIR expande fundamentalmente as capacidades de um LLM. Demonstramos que as ferramentas permitem uma expansão estrita do suporte empírico e viável do modelo, rompendo o teto de capacidade dos modelos de texto puro ao desbloquear estratégias de resolução de problemas que, de outra forma, seriam impossíveis ou intratavelmente verbosas. Para orientar o comportamento do modelo sem comprometer a estabilidade e o desempenho do treinamento, também introduzimos o Otimização de Política com Moldagem de Vantagem (ASPO, na sigla em inglês), um algoritmo novo que modifica diretamente a função de vantagem para orientar o comportamento da política. Realizamos experimentos abrangentes em benchmarks matemáticos desafiadores, utilizando um interpretador Python como ferramenta externa. Nossos resultados mostram que o modelo TIR supera decisivamente sua contraparte de texto puro na métrica pass@k. Crucialmente, essa vantagem não se limita a problemas computacionalmente intensivos, mas se estende àqueles que exigem um insight abstrato significativo. Identificamos ainda os padrões cognitivos emergentes que ilustram como os modelos aprendem a pensar com ferramentas. Por fim, relatamos um comportamento aprimorado no uso de ferramentas com a invocação precoce de código e muito mais interações com o ASPO. No geral, nosso trabalho fornece a primeira explicação fundamentada para o sucesso do TIR, deslocando o foco do mero fato de que as ferramentas funcionam para o porquê e como elas permitem um raciocínio mais poderoso.
English
We study why Tool-Integrated Reasoning (TIR) makes Large Language Models
(LLMs) more capable. While LLMs integrated with tools like Python code
interpreters show great promise, a principled theory explaining why this
paradigm is effective has been missing. This work provides the first formal
proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that
tools enable a strict expansion of the model's empirical and feasible support,
breaking the capability ceiling of pure-text models by unlocking
problem-solving strategies that are otherwise impossible or intractably
verbose. To guide model behavior without compromising training stability and
performance, we also introduce Advantage Shaping Policy Optimization (ASPO), a
novel algorithm that directly modifies the advantage function to guide the
policy behavior. We conduct comprehensive experiments on challenging
mathematical benchmarks, leveraging a Python interpreter as the external tool.
Our results show that the TIR model decisively outperforms its pure-text
counterpart on the pass@k metric. Crucially, this advantage is not confined to
computationally-intensive problems but extends to those requiring significant
abstract insight. We further identify the emergent cognitive patterns that
illustrate how models learn to think with tools. Finally, we report improved
tool usage behavior with early code invocation and much more interactive turns
with ASPO. Overall, our work provides the first principled explanation for
TIR's success, shifting the focus from the mere fact that tools work to why and
how they enable more powerful reasoning.