SimpleTIR: End-to-End Reinforcement Learning für mehrschrittiges, werkzeugintegriertes Denken

papers.abstract

Große Sprachmodelle (LLMs) können ihre Fähigkeiten zur logischen Schlussfolgerung erheblich verbessern, indem sie mit externen Werkzeugen interagieren, ein Paradigma, das als Werkzeug-integriertes Schließen (Tool-Integrated Reasoning, TIR) bekannt ist. Die Erweiterung von TIR auf Szenarien mit mehreren Interaktionsschritten mithilfe von Verstärkendem Lernen (Reinforcement Learning, RL) wird jedoch häufig durch Instabilität im Training und Leistungseinbrüche behindert. Wir stellen fest, dass diese Instabilität hauptsächlich durch eine Verteilungsschiefe aufgrund von Rückmeldungen externer Werkzeuge verursacht wird, was zur Erzeugung von Tokens mit geringer Wahrscheinlichkeit führt. Dieses Problem verstärkt sich über aufeinanderfolgende Schritte und führt zu katastrophalen Gradientennorm-Explosionen, die den Trainingsprozess zum Scheitern bringen. Um diese Herausforderung zu bewältigen, führen wir SimpleTIR ein, einen Plug-and-Play-Algorithmus, der das Training von TIR über mehrere Schritte stabilisiert. Die Kernstrategie besteht darin, Trajektorien zu identifizieren und herauszufiltern, die leere Schritte enthalten, d.h. Schritte, die weder einen Codeblock noch eine endgültige Antwort liefern. Indem diese problematischen Trajektorien von der Politikaktualisierung ausgeschlossen werden, blockiert SimpleTIR effektiv die schädlichen Gradienten mit hoher Magnitude und stabilisiert so die Lernprozesse. Umfangreiche Experimente zeigen, dass SimpleTIR Spitzenleistungen auf anspruchsvollen Benchmarks für mathematisches Schließen erzielt und dabei den AIME24-Score von einem textbasierten Ausgangswert von 22,1 auf 50,5 steigert, wenn vom Qwen2.5-7B-Basismodell ausgegangen wird. Darüber hinaus ermöglicht SimpleTIR, indem es die Einschränkungen des überwachten Feinabstimmens vermeidet, dem Modell, vielfältige und anspruchsvolle Schließmuster wie Selbstkorrektur und Kreuzvalidierung zu entdecken.

English

Large Language Models (LLMs) can significantly improve their reasoning capabilities by interacting with external tools, a paradigm known as Tool-Integrated Reasoning (TIR). However, extending TIR to multi-turn scenarios using Reinforcement Learning (RL) is often hindered by training instability and performance collapse. We identify that such instability is primarily caused by a distributional drift from external tool feedback, leading to the generation of low-probability tokens. This issue compounds over successive turns, causing catastrophic gradient norm explosions that derail the training process. To address this challenge, we introduce SimpleTIR , a plug-and-play algorithm that stabilizes multi-turn TIR training. Its core strategy is to identify and filter out trajectories containing void turns, i.e., turns that yield neither a code block nor a final answer. By removing these problematic trajectories from the policy update, SimpleTIR effectively blocks the harmful, high-magnitude gradients, thus stabilizing the learning dynamics. Extensive experiments show that SimpleTIR achieves state-of-the-art performance on challenging math reasoning benchmarks, notably elevating the AIME24 score from a text-only baseline of 22.1 to 50.5 when starting from the Qwen2.5-7B base model. Furthermore, by avoiding the constraints of supervised fine-tuning, SimpleTIR encourages the model to discover diverse and sophisticated reasoning patterns, such as self-correction and cross-validation.

SimpleTIR: End-to-End Reinforcement Learning für mehrschrittiges, werkzeugintegriertes Denken

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

papers.abstract

Support