ChatPaper.aiChatPaper

SimpleTIR : Apprentissage par renforcement de bout en bout pour le raisonnement intégrant des outils sur plusieurs tours

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

September 2, 2025
papers.authors: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLMs) peuvent considérablement améliorer leurs capacités de raisonnement en interagissant avec des outils externes, un paradigme connu sous le nom de Raisonnement Intégré avec Outils (TIR). Cependant, l'extension du TIR à des scénarios multi-tours utilisant l'apprentissage par renforcement (RL) est souvent entravée par une instabilité de l'entraînement et un effondrement des performances. Nous identifions que cette instabilité est principalement causée par un décalage distributionnel dû aux retours des outils externes, conduisant à la génération de tokens de faible probabilité. Ce problème s'aggrave au fil des tours successifs, provoquant des explosions catastrophiques de la norme du gradient qui perturbent le processus d'entraînement. Pour relever ce défi, nous introduisons SimpleTIR, un algorithme plug-and-play qui stabilise l'entraînement multi-tours du TIR. Sa stratégie centrale consiste à identifier et filtrer les trajectoires contenant des tours vides, c'est-à-dire des tours qui ne produisent ni un bloc de code ni une réponse finale. En éliminant ces trajectoires problématiques de la mise à jour de la politique, SimpleTIR bloque efficacement les gradients de grande amplitude nuisibles, stabilisant ainsi la dynamique d'apprentissage. Des expériences approfondies montrent que SimpleTIR atteint des performances de pointe sur des benchmarks de raisonnement mathématique difficiles, élevant notamment le score AIME24 d'une base textuelle de 22,1 à 50,5 en partant du modèle de base Qwen2.5-7B. De plus, en évitant les contraintes du fine-tuning supervisé, SimpleTIR encourage le modèle à découvrir des schémas de raisonnement diversifiés et sophistiqués, tels que l'auto-correction et la validation croisée.
English
Large Language Models (LLMs) can significantly improve their reasoning capabilities by interacting with external tools, a paradigm known as Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios using Reinforcement Learning (RL) is often hindered by training instability and performance collapse. We identify that such instability is primarily caused by a distributional drift from external tool feedback, leading to the generation of low-probability tokens. This issue compounds over successive turns, causing catastrophic gradient norm explosions that derail the training process. To address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that stabilizes multi-turn TIR training. Its core strategy is to identify and filter out trajectories containing void turns, i.e., turns that yield neither a code block nor a final answer. By removing these problematic trajectories from the policy update, SimpleTIR effectively blocks the harmful, high-magnitude gradients, thus stabilizing the learning dynamics. Extensive experiments show that SimpleTIR achieves state-of-the-art performance on challenging math reasoning benchmarks, notably elevating the AIME24 score from a text-only baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model. Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR encourages the model to discover diverse and sophisticated reasoning patterns, such as self-correction and cross-validation.
PDF762September 3, 2025