SimpleTIR: Aprendizaje por Refuerzo de Extremo a Extremo para el Razonamiento Integrado con Herramientas en Múltiples Turnos
SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
September 2, 2025
Autores: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden mejorar significativamente sus capacidades de razonamiento al interactuar con herramientas externas, un paradigma conocido como Razonamiento Integrado con Herramientas (TIR, por sus siglas en inglés). Sin embargo, extender el TIR a escenarios de múltiples turnos utilizando Aprendizaje por Refuerzo (RL, por sus siglas en inglés) a menudo se ve obstaculizado por la inestabilidad en el entrenamiento y el colapso del rendimiento. Identificamos que dicha inestabilidad es causada principalmente por un desvío distribucional debido a la retroalimentación de las herramientas externas, lo que lleva a la generación de tokens de baja probabilidad. Este problema se agrava en turnos sucesivos, causando explosiones catastróficas en la norma del gradiente que desvían el proceso de entrenamiento. Para abordar este desafío, presentamos SimpleTIR, un algoritmo plug-and-play que estabiliza el entrenamiento de TIR en múltiples turnos. Su estrategia central es identificar y filtrar trayectorias que contienen turnos vacíos, es decir, turnos que no producen ni un bloque de código ni una respuesta final. Al eliminar estas trayectorias problemáticas de la actualización de la política, SimpleTIR bloquea efectivamente los gradientes dañinos de alta magnitud, estabilizando así la dinámica de aprendizaje. Experimentos extensos muestran que SimpleTIR alcanza un rendimiento de vanguardia en desafiantes benchmarks de razonamiento matemático, elevando notablemente la puntuación AIME24 desde una línea base de solo texto de 22.1 a 50.5 cuando se parte del modelo base Qwen2.5-7B. Además, al evitar las limitaciones del ajuste fino supervisado, SimpleTIR fomenta que el modelo descubra patrones de razonamiento diversos y sofisticados, como la autocorrección y la validación cruzada.
English
Large Language Models (LLMs) can significantly improve their reasoning
capabilities by interacting with external tools, a paradigm known as
Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios
using Reinforcement Learning (RL) is often hindered by training instability and
performance collapse. We identify that such instability is primarily caused by
a distributional drift from external tool feedback, leading to the generation
of low-probability tokens. This issue compounds over successive turns, causing
catastrophic gradient norm explosions that derail the training process. To
address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that
stabilizes multi-turn TIR training. Its core strategy is to identify and filter
out trajectories containing void turns, i.e., turns that yield neither a code
block nor a final answer. By removing these problematic trajectories from the
policy update, SimpleTIR effectively blocks the harmful, high-magnitude
gradients, thus stabilizing the learning dynamics. Extensive experiments show
that SimpleTIR achieves state-of-the-art performance on challenging math
reasoning benchmarks, notably elevating the AIME24 score from a text-only
baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model.
Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR
encourages the model to discover diverse and sophisticated reasoning patterns,
such as self-correction and cross-validation.