SimpleTIR: Сквозное обучение с подкреплением для многошагового рассуждения с использованием инструментов
SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
September 2, 2025
Авторы: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An
cs.AI
Аннотация
Крупные языковые модели (LLM) могут значительно улучшить свои способности к рассуждению, взаимодействуя с внешними инструментами, что известно как Интегрированное Рассуждение с Инструментами (Tool-Integrated Reasoning, TIR). Однако расширение TIR на многошаговые сценарии с использованием обучения с подкреплением (Reinforcement Learning, RL) часто сталкивается с проблемами нестабильности обучения и коллапса производительности. Мы выяснили, что такая нестабильность в основном вызвана распределительным сдвигом из-за обратной связи от внешних инструментов, что приводит к генерации маловероятных токенов. Эта проблема усугубляется на последовательных шагах, вызывая катастрофические взрывы нормы градиента, которые нарушают процесс обучения. Для решения этой задачи мы представляем SimpleTIR — подключаемый алгоритм, который стабилизирует обучение в многошаговых сценариях TIR. Его ключевая стратегия заключается в выявлении и фильтрации траекторий, содержащих пустые шаги, то есть шаги, которые не приводят ни к созданию блока кода, ни к окончательному ответу. Удаляя такие проблемные траектории из обновления политики, SimpleTIR эффективно блокирует вредные градиенты с высокой величиной, тем самым стабилизируя динамику обучения. Многочисленные эксперименты показывают, что SimpleTIR достигает наилучших результатов на сложных тестах математического рассуждения, значительно повышая показатель AIME24 с базового уровня 22.1 (только текст) до 50.5 при использовании базовой модели Qwen2.5-7B. Кроме того, избегая ограничений контролируемого тонкого настраивания, SimpleTIR способствует тому, что модель открывает разнообразные и сложные паттерны рассуждения, такие как самокоррекция и перекрестная проверка.
English
Large Language Models (LLMs) can significantly improve their reasoning
capabilities by interacting with external tools, a paradigm known as
Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios
using Reinforcement Learning (RL) is often hindered by training instability and
performance collapse. We identify that such instability is primarily caused by
a distributional drift from external tool feedback, leading to the generation
of low-probability tokens. This issue compounds over successive turns, causing
catastrophic gradient norm explosions that derail the training process. To
address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that
stabilizes multi-turn TIR training. Its core strategy is to identify and filter
out trajectories containing void turns, i.e., turns that yield neither a code
block nor a final answer. By removing these problematic trajectories from the
policy update, SimpleTIR effectively blocks the harmful, high-magnitude
gradients, thus stabilizing the learning dynamics. Extensive experiments show
that SimpleTIR achieves state-of-the-art performance on challenging math
reasoning benchmarks, notably elevating the AIME24 score from a text-only
baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model.
Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR
encourages the model to discover diverse and sophisticated reasoning patterns,
such as self-correction and cross-validation.