ChatPaper.aiChatPaper

SimpleTIR: Aprendizado por Reforço End-to-End para Raciocínio Integrado a Ferramentas em Múltiplos Turnos

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

September 2, 2025
Autores: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) podem melhorar significativamente suas capacidades de raciocínio ao interagir com ferramentas externas, um paradigma conhecido como Raciocínio Integrado com Ferramentas (Tool-Integrated Reasoning - TIR). No entanto, estender o TIR para cenários de múltiplas interações usando Aprendizado por Reforço (Reinforcement Learning - RL) é frequentemente dificultado por instabilidade no treinamento e colapso de desempenho. Identificamos que tal instabilidade é causada principalmente por um desvio distribucional proveniente do feedback das ferramentas externas, levando à geração de tokens de baixa probabilidade. Esse problema se agrava ao longo de interações sucessivas, causando explosões catastróficas na norma do gradiente que prejudicam o processo de treinamento. Para enfrentar esse desafio, introduzimos o SimpleTIR, um algoritmo plug-and-play que estabiliza o treinamento de TIR em múltiplas interações. Sua estratégia central é identificar e filtrar trajetórias que contenham interações vazias, ou seja, interações que não produzem nem um bloco de código nem uma resposta final. Ao remover essas trajetórias problemáticas da atualização da política, o SimpleTIR bloqueia efetivamente os gradientes de alta magnitude que são prejudiciais, estabilizando assim a dinâmica de aprendizado. Experimentos extensivos mostram que o SimpleTIR alcança desempenho de ponta em benchmarks desafiadores de raciocínio matemático, elevando notavelmente a pontuação AIME24 de uma linha de base baseada apenas em texto de 22,1 para 50,5 quando iniciado a partir do modelo base Qwen2.5-7B. Além disso, ao evitar as limitações do ajuste fino supervisionado, o SimpleTIR incentiva o modelo a descobrir padrões de raciocínio diversos e sofisticados, como autocorreção e validação cruzada.
English
Large Language Models (LLMs) can significantly improve their reasoning capabilities by interacting with external tools, a paradigm known as Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios using Reinforcement Learning (RL) is often hindered by training instability and performance collapse. We identify that such instability is primarily caused by a distributional drift from external tool feedback, leading to the generation of low-probability tokens. This issue compounds over successive turns, causing catastrophic gradient norm explosions that derail the training process. To address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that stabilizes multi-turn TIR training. Its core strategy is to identify and filter out trajectories containing void turns, i.e., turns that yield neither a code block nor a final answer. By removing these problematic trajectories from the policy update, SimpleTIR effectively blocks the harmful, high-magnitude gradients, thus stabilizing the learning dynamics. Extensive experiments show that SimpleTIR achieves state-of-the-art performance on challenging math reasoning benchmarks, notably elevating the AIME24 score from a text-only baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model. Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR encourages the model to discover diverse and sophisticated reasoning patterns, such as self-correction and cross-validation.
PDF832September 3, 2025