ChatPaper.aiChatPaper

Teil I: Tricks oder Fallen? Eine tiefgehende Untersuchung von Reinforcement Learning für das Reasoning von Large Language Models

Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

August 11, 2025
papers.authors: Zihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng
cs.AI

papers.abstract

Reinforcement Learning (RL) für das Reasoning von Large Language Models (LLMs) hat sich schnell zu einem bedeutenden Forschungsgebiet entwickelt, das durch einen deutlichen Anstieg verwandter Studien sowohl im Bereich algorithmischer Innovationen als auch praktischer Anwendungen gekennzeichnet ist. Trotz dieser Fortschritte bleiben mehrere kritische Herausforderungen bestehen, darunter das Fehlen standardisierter Richtlinien für den Einsatz von RL-Techniken und ein fragmentiertes Verständnis ihrer zugrunde liegenden Mechanismen. Darüber hinaus haben inkonsistente experimentelle Rahmenbedingungen, Variationen in den Trainingsdaten und Unterschiede in der Modellinitialisierung zu widersprüchlichen Schlussfolgerungen geführt, die die wesentlichen Merkmale dieser Techniken verschleiern und bei Praktikern Verwirrung bei der Auswahl geeigneter Methoden stiften. Diese Arbeit systematisiert weit verbreitete RL-Techniken durch rigorose Reproduktionen und isolierte Bewertungen innerhalb eines einheitlichen Open-Source-Frameworks. Wir analysieren die internen Mechanismen, anwendbaren Szenarien und Kernprinzipien jeder Technik durch feingranulierte Experimente, einschließlich Datensätzen mit unterschiedlichem Schwierigkeitsgrad, Modellgrößen und Architekturen. Basierend auf diesen Erkenntnissen präsentieren wir klare Richtlinien für die Auswahl von RL-Techniken, die auf spezifische Anforderungen zugeschnitten sind, und bieten Praktikern eine verlässliche Roadmap für die Navigation im RL-Bereich für LLMs. Schließlich zeigen wir, dass eine minimalistisch kombinierte Anwendung zweier Techniken die Lernfähigkeit von kritikfreien Policies unter Verwendung des einfachen PPO-Loss freisetzen kann. Die Ergebnisse demonstrieren, dass unsere einfache Kombination die Leistung konsistent verbessert und Strategien wie GRPO und DAPO übertrifft.
English
Reinforcement learning for LLM reasoning has rapidly emerged as a prominent research area, marked by a significant surge in related studies on both algorithmic innovations and practical applications. Despite this progress, several critical challenges remain, including the absence of standardized guidelines for employing RL techniques and a fragmented understanding of their underlying mechanisms. Additionally, inconsistent experimental settings, variations in training data, and differences in model initialization have led to conflicting conclusions, obscuring the key characteristics of these techniques and creating confusion among practitioners when selecting appropriate techniques. This paper systematically reviews widely adopted RL techniques through rigorous reproductions and isolated evaluations within a unified open-source framework. We analyze the internal mechanisms, applicable scenarios, and core principles of each technique through fine-grained experiments, including datasets of varying difficulty, model sizes, and architectures. Based on these insights, we present clear guidelines for selecting RL techniques tailored to specific setups, and provide a reliable roadmap for practitioners navigating the RL for the LLM domain. Finally, we reveal that a minimalist combination of two techniques can unlock the learning capability of critic-free policies using vanilla PPO loss. The results demonstrate that our simple combination consistently improves performance, surpassing strategies like GRPO and DAPO.
PDF263August 12, 2025