ChatPaper.aiChatPaper

SimpleTIR: Apprendimento per Rinforzo End-to-End per il Ragionamento Strumentale a Turni Multipli

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

September 2, 2025
Autori: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An
cs.AI

Abstract

I Large Language Model (LLM) possono migliorare significativamente le loro capacità di ragionamento interagendo con strumenti esterni, un paradigma noto come Tool-Integrated Reasoning (TIR). Tuttavia, estendere il TIR a scenari multi-turn utilizzando il Reinforcement Learning (RL) è spesso ostacolato da instabilità durante l'addestramento e collasso delle prestazioni. Identifichiamo che tale instabilità è principalmente causata da una deriva distributiva dovuta al feedback degli strumenti esterni, che porta alla generazione di token a bassa probabilità. Questo problema si accumula nel corso di turni successivi, causando esplosioni catastrofiche della norma del gradiente che compromettono il processo di addestramento. Per affrontare questa sfida, introduciamo SimpleTIR, un algoritmo plug-and-play che stabilizza l'addestramento multi-turn del TIR. La sua strategia principale consiste nell'identificare e filtrare le traiettorie contenenti turni vuoti, ovvero turni che non producono né un blocco di codice né una risposta finale. Rimuovendo queste traiettorie problematiche dall'aggiornamento della policy, SimpleTIR blocca efficacemente i gradienti dannosi ad alta magnitudine, stabilizzando così le dinamiche di apprendimento. Esperimenti estensivi dimostrano che SimpleTIR raggiunge prestazioni all'avanguardia su benchmark impegnativi di ragionamento matematico, elevando in modo significativo il punteggio AIME24 da un baseline testuale di 22.1 a 50.5 partendo dal modello base Qwen2.5-7B. Inoltre, evitando i vincoli del fine-tuning supervisionato, SimpleTIR incoraggia il modello a scoprire pattern di ragionamento diversificati e sofisticati, come l'autocorrezione e la cross-validazione.
English
Large Language Models (LLMs) can significantly improve their reasoning capabilities by interacting with external tools, a paradigm known as Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios using Reinforcement Learning (RL) is often hindered by training instability and performance collapse. We identify that such instability is primarily caused by a distributional drift from external tool feedback, leading to the generation of low-probability tokens. This issue compounds over successive turns, causing catastrophic gradient norm explosions that derail the training process. To address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that stabilizes multi-turn TIR training. Its core strategy is to identify and filter out trajectories containing void turns, i.e., turns that yield neither a code block nor a final answer. By removing these problematic trajectories from the policy update, SimpleTIR effectively blocks the harmful, high-magnitude gradients, thus stabilizing the learning dynamics. Extensive experiments show that SimpleTIR achieves state-of-the-art performance on challenging math reasoning benchmarks, notably elevating the AIME24 score from a text-only baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model. Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR encourages the model to discover diverse and sophisticated reasoning patterns, such as self-correction and cross-validation.
PDF832September 3, 2025