Понимание инструментально-интегрированного рассуждения

Аннотация

Мы исследуем, почему рассуждение с использованием инструментов (Tool-Integrated Reasoning, TIR) повышает возможности больших языковых моделей (LLM). Хотя LLM, интегрированные с такими инструментами, как интерпретаторы кода на Python, демонстрируют значительный потенциал, до сих пор отсутствовала теоретическая основа, объясняющая, почему этот подход эффективен. В данной работе представлено первое формальное доказательство того, что TIR принципиально расширяет возможности LLM. Мы показываем, что инструменты позволяют строго расширить эмпирическую и выполнимую поддержку модели, преодолевая ограничения чисто текстовых моделей за счет включения стратегий решения задач, которые в противном случае были бы невозможны или чрезмерно сложны. Чтобы направлять поведение модели без ущерба для стабильности обучения и производительности, мы также представляем новый алгоритм — Оптимизацию политики с формированием преимущества (Advantage Shaping Policy Optimization, ASPO), который напрямую модифицирует функцию преимущества для управления поведением политики. Мы проводим всесторонние эксперименты на сложных математических задачах, используя интерпретатор Python в качестве внешнего инструмента. Наши результаты показывают, что модель с TIR значительно превосходит свою чисто текстовую версию по метрике pass@k. Важно отметить, что это преимущество не ограничивается вычислительно сложными задачами, но распространяется и на те, которые требуют значительного абстрактного мышления. Мы также выявляем возникающие когнитивные паттерны, иллюстрирующие, как модели учатся мыслить с помощью инструментов. Наконец, мы отмечаем улучшенное поведение в использовании инструментов с ранним вызовом кода и более интерактивными шагами при применении ASPO. В целом, наша работа предоставляет первое принципиальное объяснение успеха TIR, смещая фокус с самого факта работы инструментов на то, почему и как они обеспечивают более мощное рассуждение.

English

We study why Tool-Integrated Reasoning (TIR) makes Large Language Models (LLMs) more capable. While LLMs integrated with tools like Python code interpreters show great promise, a principled theory explaining why this paradigm is effective has been missing. This work provides the first formal proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that tools enable a strict expansion of the model's empirical and feasible support, breaking the capability ceiling of pure-text models by unlocking problem-solving strategies that are otherwise impossible or intractably verbose. To guide model behavior without compromising training stability and performance, we also introduce Advantage Shaping Policy Optimization (ASPO), a novel algorithm that directly modifies the advantage function to guide the policy behavior. We conduct comprehensive experiments on challenging mathematical benchmarks, leveraging a Python interpreter as the external tool. Our results show that the TIR model decisively outperforms its pure-text counterpart on the pass@k metric. Crucially, this advantage is not confined to computationally-intensive problems but extends to those requiring significant abstract insight. We further identify the emergent cognitive patterns that illustrate how models learn to think with tools. Finally, we report improved tool usage behavior with early code invocation and much more interactive turns with ASPO. Overall, our work provides the first principled explanation for TIR's success, shifting the focus from the mere fact that tools work to why and how they enable more powerful reasoning.