Compreendendo o Raciocínio Integrado a Ferramentas

Resumo

Estudamos por que o Raciocínio Integrado com Ferramentas (TIR, na sigla em inglês) torna os Modelos de Linguagem de Grande Escala (LLMs) mais capazes. Embora os LLMs integrados com ferramentas como interpretadores de código Python mostrem grande potencial, uma teoria fundamentada que explique por que esse paradigma é eficaz tem sido ausente. Este trabalho fornece a primeira prova formal de que o TIR expande fundamentalmente as capacidades de um LLM. Demonstramos que as ferramentas permitem uma expansão estrita do suporte empírico e viável do modelo, rompendo o teto de capacidade dos modelos de texto puro ao desbloquear estratégias de resolução de problemas que, de outra forma, seriam impossíveis ou intratavelmente verbosas. Para orientar o comportamento do modelo sem comprometer a estabilidade e o desempenho do treinamento, também introduzimos o Otimização de Política com Moldagem de Vantagem (ASPO, na sigla em inglês), um algoritmo novo que modifica diretamente a função de vantagem para orientar o comportamento da política. Realizamos experimentos abrangentes em benchmarks matemáticos desafiadores, utilizando um interpretador Python como ferramenta externa. Nossos resultados mostram que o modelo TIR supera decisivamente sua contraparte de texto puro na métrica pass@k. Crucialmente, essa vantagem não se limita a problemas computacionalmente intensivos, mas se estende àqueles que exigem um insight abstrato significativo. Identificamos ainda os padrões cognitivos emergentes que ilustram como os modelos aprendem a pensar com ferramentas. Por fim, relatamos um comportamento aprimorado no uso de ferramentas com a invocação precoce de código e muito mais interações com o ASPO. No geral, nosso trabalho fornece a primeira explicação fundamentada para o sucesso do TIR, deslocando o foco do mero fato de que as ferramentas funcionam para o porquê e como elas permitem um raciocínio mais poderoso.

English

We study why Tool-Integrated Reasoning (TIR) makes Large Language Models (LLMs) more capable. While LLMs integrated with tools like Python code interpreters show great promise, a principled theory explaining why this paradigm is effective has been missing. This work provides the first formal proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that tools enable a strict expansion of the model's empirical and feasible support, breaking the capability ceiling of pure-text models by unlocking problem-solving strategies that are otherwise impossible or intractably verbose. To guide model behavior without compromising training stability and performance, we also introduce Advantage Shaping Policy Optimization (ASPO), a novel algorithm that directly modifies the advantage function to guide the policy behavior. We conduct comprehensive experiments on challenging mathematical benchmarks, leveraging a Python interpreter as the external tool. Our results show that the TIR model decisively outperforms its pure-text counterpart on the pass@k metric. Crucially, this advantage is not confined to computationally-intensive problems but extends to those requiring significant abstract insight. We further identify the emergent cognitive patterns that illustrate how models learn to think with tools. Finally, we report improved tool usage behavior with early code invocation and much more interactive turns with ASPO. Overall, our work provides the first principled explanation for TIR's success, shifting the focus from the mere fact that tools work to why and how they enable more powerful reasoning.

Compreendendo o Raciocínio Integrado a Ferramentas

Understanding Tool-Integrated Reasoning

Resumo

Support