SimpleTIR: End-to-End Reinforcement Learning für mehrschrittiges, werkzeugintegriertes Denken
SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
September 2, 2025
papers.authors: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) können ihre Fähigkeiten zur logischen Schlussfolgerung erheblich verbessern, indem sie mit externen Werkzeugen interagieren, ein Paradigma, das als Werkzeug-integriertes Schließen (Tool-Integrated Reasoning, TIR) bekannt ist. Die Erweiterung von TIR auf Szenarien mit mehreren Interaktionsschritten mithilfe von Verstärkendem Lernen (Reinforcement Learning, RL) wird jedoch häufig durch Instabilität im Training und Leistungseinbrüche behindert. Wir stellen fest, dass diese Instabilität hauptsächlich durch eine Verteilungsschiefe aufgrund von Rückmeldungen externer Werkzeuge verursacht wird, was zur Erzeugung von Tokens mit geringer Wahrscheinlichkeit führt. Dieses Problem verstärkt sich über aufeinanderfolgende Schritte und führt zu katastrophalen Gradientennorm-Explosionen, die den Trainingsprozess zum Scheitern bringen. Um diese Herausforderung zu bewältigen, führen wir SimpleTIR ein, einen Plug-and-Play-Algorithmus, der das Training von TIR über mehrere Schritte stabilisiert. Die Kernstrategie besteht darin, Trajektorien zu identifizieren und herauszufiltern, die leere Schritte enthalten, d.h. Schritte, die weder einen Codeblock noch eine endgültige Antwort liefern. Indem diese problematischen Trajektorien von der Politikaktualisierung ausgeschlossen werden, blockiert SimpleTIR effektiv die schädlichen Gradienten mit hoher Magnitude und stabilisiert so die Lernprozesse. Umfangreiche Experimente zeigen, dass SimpleTIR Spitzenleistungen auf anspruchsvollen Benchmarks für mathematisches Schließen erzielt und dabei den AIME24-Score von einem textbasierten Ausgangswert von 22,1 auf 50,5 steigert, wenn vom Qwen2.5-7B-Basismodell ausgegangen wird. Darüber hinaus ermöglicht SimpleTIR, indem es die Einschränkungen des überwachten Feinabstimmens vermeidet, dem Modell, vielfältige und anspruchsvolle Schließmuster wie Selbstkorrektur und Kreuzvalidierung zu entdecken.
English
Large Language Models (LLMs) can significantly improve their reasoning
capabilities by interacting with external tools, a paradigm known as
Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios
using Reinforcement Learning (RL) is often hindered by training instability and
performance collapse. We identify that such instability is primarily caused by
a distributional drift from external tool feedback, leading to the generation
of low-probability tokens. This issue compounds over successive turns, causing
catastrophic gradient norm explosions that derail the training process. To
address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that
stabilizes multi-turn TIR training. Its core strategy is to identify and filter
out trajectories containing void turns, i.e., turns that yield neither a code
block nor a final answer. By removing these problematic trajectories from the
policy update, SimpleTIR effectively blocks the harmful, high-magnitude
gradients, thus stabilizing the learning dynamics. Extensive experiments show
that SimpleTIR achieves state-of-the-art performance on challenging math
reasoning benchmarks, notably elevating the AIME24 score from a text-only
baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model.
Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR
encourages the model to discover diverse and sophisticated reasoning patterns,
such as self-correction and cross-validation.