SimpleTIR: Apprendimento per Rinforzo End-to-End per il Ragionamento Strumentale a Turni Multipli
SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
September 2, 2025
Autori: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An
cs.AI
Abstract
I Large Language Model (LLM) possono migliorare significativamente le loro capacità di ragionamento interagendo con strumenti esterni, un paradigma noto come Tool-Integrated Reasoning (TIR). Tuttavia, estendere il TIR a scenari multi-turn utilizzando il Reinforcement Learning (RL) è spesso ostacolato da instabilità durante l'addestramento e collasso delle prestazioni. Identifichiamo che tale instabilità è principalmente causata da una deriva distributiva dovuta al feedback degli strumenti esterni, che porta alla generazione di token a bassa probabilità. Questo problema si accumula nel corso di turni successivi, causando esplosioni catastrofiche della norma del gradiente che compromettono il processo di addestramento. Per affrontare questa sfida, introduciamo SimpleTIR, un algoritmo plug-and-play che stabilizza l'addestramento multi-turn del TIR. La sua strategia principale consiste nell'identificare e filtrare le traiettorie contenenti turni vuoti, ovvero turni che non producono né un blocco di codice né una risposta finale. Rimuovendo queste traiettorie problematiche dall'aggiornamento della policy, SimpleTIR blocca efficacemente i gradienti dannosi ad alta magnitudine, stabilizzando così le dinamiche di apprendimento. Esperimenti estensivi dimostrano che SimpleTIR raggiunge prestazioni all'avanguardia su benchmark impegnativi di ragionamento matematico, elevando in modo significativo il punteggio AIME24 da un baseline testuale di 22.1 a 50.5 partendo dal modello base Qwen2.5-7B. Inoltre, evitando i vincoli del fine-tuning supervisionato, SimpleTIR incoraggia il modello a scoprire pattern di ragionamento diversificati e sofisticati, come l'autocorrezione e la cross-validazione.
English
Large Language Models (LLMs) can significantly improve their reasoning
capabilities by interacting with external tools, a paradigm known as
Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios
using Reinforcement Learning (RL) is often hindered by training instability and
performance collapse. We identify that such instability is primarily caused by
a distributional drift from external tool feedback, leading to the generation
of low-probability tokens. This issue compounds over successive turns, causing
catastrophic gradient norm explosions that derail the training process. To
address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that
stabilizes multi-turn TIR training. Its core strategy is to identify and filter
out trajectories containing void turns, i.e., turns that yield neither a code
block nor a final answer. By removing these problematic trajectories from the
policy update, SimpleTIR effectively blocks the harmful, high-magnitude
gradients, thus stabilizing the learning dynamics. Extensive experiments show
that SimpleTIR achieves state-of-the-art performance on challenging math
reasoning benchmarks, notably elevating the AIME24 score from a text-only
baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model.
Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR
encourages the model to discover diverse and sophisticated reasoning patterns,
such as self-correction and cross-validation.