Eine Übersicht über Reinforcement Learning für große Reasoning-Modelle

papers.abstract

In diesem Beitrag geben wir einen Überblick über die jüngsten Fortschritte im Bereich des Reinforcement Learning (RL) für das Schließen mit Large Language Models (LLMs). RL hat bemerkenswerte Erfolge bei der Erweiterung der Fähigkeiten von LLMs erzielt, insbesondere bei der Bewältigung komplexer logischer Aufgaben wie Mathematik und Programmierung. Infolgedessen hat sich RL als grundlegende Methodik etabliert, um LLMs in LRMs zu transformieren. Mit dem rasanten Fortschritt des Feldes stehen die weitere Skalierung von RL für LRMs nun vor grundlegenden Herausforderungen, nicht nur in Bezug auf Rechenressourcen, sondern auch in Bezug auf Algorithmendesign, Trainingsdaten und Infrastruktur. Daher ist es an der Zeit, die Entwicklung dieses Bereichs erneut zu betrachten, seine Entwicklung zu bewerten und Strategien zu erkunden, um die Skalierbarkeit von RL hin zu künstlicher Superintelligenz (ASI) zu verbessern. Insbesondere untersuchen wir Forschungen, die RL auf LLMs und LRMs für Schließfähigkeiten anwenden, insbesondere seit der Veröffentlichung von DeepSeek-R1, einschließlich grundlegender Komponenten, Kernprobleme, Trainingsressourcen und nachgelagerter Anwendungen, um zukünftige Chancen und Richtungen für dieses sich schnell entwickelnde Gebiet zu identifizieren. Wir hoffen, dass diese Übersicht zukünftige Forschungen zu RL für breitere Schließmodelle fördern wird. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

English

In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

Eine Übersicht über Reinforcement Learning für große Reasoning-Modelle

A Survey of Reinforcement Learning for Large Reasoning Models

papers.abstract

Support