SimpleTIR: Aprendizaje por Refuerzo de Extremo a Extremo para el Razonamiento Integrado con Herramientas en Múltiples Turnos

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden mejorar significativamente sus capacidades de razonamiento al interactuar con herramientas externas, un paradigma conocido como Razonamiento Integrado con Herramientas (TIR, por sus siglas en inglés). Sin embargo, extender el TIR a escenarios de múltiples turnos utilizando Aprendizaje por Refuerzo (RL, por sus siglas en inglés) a menudo se ve obstaculizado por la inestabilidad en el entrenamiento y el colapso del rendimiento. Identificamos que dicha inestabilidad es causada principalmente por un desvío distribucional debido a la retroalimentación de las herramientas externas, lo que lleva a la generación de tokens de baja probabilidad. Este problema se agrava en turnos sucesivos, causando explosiones catastróficas en la norma del gradiente que desvían el proceso de entrenamiento. Para abordar este desafío, presentamos SimpleTIR, un algoritmo plug-and-play que estabiliza el entrenamiento de TIR en múltiples turnos. Su estrategia central es identificar y filtrar trayectorias que contienen turnos vacíos, es decir, turnos que no producen ni un bloque de código ni una respuesta final. Al eliminar estas trayectorias problemáticas de la actualización de la política, SimpleTIR bloquea efectivamente los gradientes dañinos de alta magnitud, estabilizando así la dinámica de aprendizaje. Experimentos extensos muestran que SimpleTIR alcanza un rendimiento de vanguardia en desafiantes benchmarks de razonamiento matemático, elevando notablemente la puntuación AIME24 desde una línea base de solo texto de 22.1 a 50.5 cuando se parte del modelo base Qwen2.5-7B. Además, al evitar las limitaciones del ajuste fino supervisado, SimpleTIR fomenta que el modelo descubra patrones de razonamiento diversos y sofisticados, como la autocorrección y la validación cruzada.

English

Large Language Models (LLMs) can significantly improve their reasoning capabilities by interacting with external tools, a paradigm known as Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios using Reinforcement Learning (RL) is often hindered by training instability and performance collapse. We identify that such instability is primarily caused by a distributional drift from external tool feedback, leading to the generation of low-probability tokens. This issue compounds over successive turns, causing catastrophic gradient norm explosions that derail the training process. To address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that stabilizes multi-turn TIR training. Its core strategy is to identify and filter out trajectories containing void turns, i.e., turns that yield neither a code block nor a final answer. By removing these problematic trajectories from the policy update, SimpleTIR effectively blocks the harmful, high-magnitude gradients, thus stabilizing the learning dynamics. Extensive experiments show that SimpleTIR achieves state-of-the-art performance on challenging math reasoning benchmarks, notably elevating the AIME24 score from a text-only baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model. Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR encourages the model to discover diverse and sophisticated reasoning patterns, such as self-correction and cross-validation.

SimpleTIR: Aprendizaje por Refuerzo de Extremo a Extremo para el Razonamiento Integrado con Herramientas en Múltiples Turnos

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

Resumen

Support