ChatPaper.aiChatPaper

SimpleTIR: End-to-End Reinforcement Learning voor Multi-Turn Tool-Geïntegreerd Redeneren

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

September 2, 2025
Auteurs: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) kunnen hun redeneervermogen aanzienlijk verbeteren door interactie met externe tools, een paradigma dat bekend staat als Tool-Integrated Reasoning (TIR). Het uitbreiden van TIR naar scenario's met meerdere beurten met behulp van Reinforcement Learning (RL) wordt echter vaak belemmerd door instabiliteit tijdens de training en prestatieverval. Wij identificeren dat deze instabiliteit voornamelijk wordt veroorzaakt door een distributieverschuiving als gevolg van feedback van externe tools, wat leidt tot de generatie van tokens met een lage waarschijnlijkheid. Dit probleem verergert na opeenvolgende beurten, wat catastrofale explosies in de gradiëntnorm veroorzaakt die het trainingsproces ontsporen. Om deze uitdaging aan te pakken, introduceren we SimpleTIR, een plug-and-play algoritme dat de training van TIR over meerdere beurten stabiliseert. De kernstrategie is het identificeren en filteren van trajecten die lege beurten bevatten, d.w.z. beurten die noch een codeblok noch een definitief antwoord opleveren. Door deze problematische trajecten uit de beleidsupdate te verwijderen, blokkeert SimpleTIR effectief de schadelijke, hoogmagnitude gradiënten, waardoor de leer dynamiek wordt gestabiliseerd. Uitgebreide experimenten tonen aan dat SimpleTIR state-of-the-art prestaties behaalt op uitdagende wiskundige redeneerbenchmarks, waarbij de AIME24-score wordt verhoogd van een tekst-only baseline van 22.1 naar 50.5 wanneer gestart vanaf het Qwen2.5-7B basismodel. Bovendien moedigt SimpleTIR, door de beperkingen van supervised fine-tuning te vermijden, het model aan om diverse en verfijnde redeneerpatronen te ontdekken, zoals zelfcorrectie en kruisvalidatie.
English
Large Language Models (LLMs) can significantly improve their reasoning capabilities by interacting with external tools, a paradigm known as Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios using Reinforcement Learning (RL) is often hindered by training instability and performance collapse. We identify that such instability is primarily caused by a distributional drift from external tool feedback, leading to the generation of low-probability tokens. This issue compounds over successive turns, causing catastrophic gradient norm explosions that derail the training process. To address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that stabilizes multi-turn TIR training. Its core strategy is to identify and filter out trajectories containing void turns, i.e., turns that yield neither a code block nor a final answer. By removing these problematic trajectories from the policy update, SimpleTIR effectively blocks the harmful, high-magnitude gradients, thus stabilizing the learning dynamics. Extensive experiments show that SimpleTIR achieves state-of-the-art performance on challenging math reasoning benchmarks, notably elevating the AIME24 score from a text-only baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model. Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR encourages the model to discover diverse and sophisticated reasoning patterns, such as self-correction and cross-validation.
PDF832September 3, 2025