Eine Übersicht über Reinforcement Learning für große Reasoning-Modelle
A Survey of Reinforcement Learning for Large Reasoning Models
September 10, 2025
papers.authors: Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou
cs.AI
papers.abstract
In diesem Beitrag geben wir einen Überblick über die jüngsten Fortschritte im Bereich des Reinforcement Learning (RL) für das Schließen mit Large Language Models (LLMs). RL hat bemerkenswerte Erfolge bei der Erweiterung der Fähigkeiten von LLMs erzielt, insbesondere bei der Bewältigung komplexer logischer Aufgaben wie Mathematik und Programmierung. Infolgedessen hat sich RL als grundlegende Methodik etabliert, um LLMs in LRMs zu transformieren. Mit dem rasanten Fortschritt des Feldes stehen die weitere Skalierung von RL für LRMs nun vor grundlegenden Herausforderungen, nicht nur in Bezug auf Rechenressourcen, sondern auch in Bezug auf Algorithmendesign, Trainingsdaten und Infrastruktur. Daher ist es an der Zeit, die Entwicklung dieses Bereichs erneut zu betrachten, seine Entwicklung zu bewerten und Strategien zu erkunden, um die Skalierbarkeit von RL hin zu künstlicher Superintelligenz (ASI) zu verbessern. Insbesondere untersuchen wir Forschungen, die RL auf LLMs und LRMs für Schließfähigkeiten anwenden, insbesondere seit der Veröffentlichung von DeepSeek-R1, einschließlich grundlegender Komponenten, Kernprobleme, Trainingsressourcen und nachgelagerter Anwendungen, um zukünftige Chancen und Richtungen für dieses sich schnell entwickelnde Gebiet zu identifizieren. Wir hoffen, dass diese Übersicht zukünftige Forschungen zu RL für breitere Schließmodelle fördern wird. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
English
In this paper, we survey recent advances in Reinforcement Learning (RL) for
reasoning with Large Language Models (LLMs). RL has achieved remarkable success
in advancing the frontier of LLM capabilities, particularly in addressing
complex logical tasks such as mathematics and coding. As a result, RL has
emerged as a foundational methodology for transforming LLMs into LRMs. With the
rapid progress of the field, further scaling of RL for LRMs now faces
foundational challenges not only in computational resources but also in
algorithm design, training data, and infrastructure. To this end, it is timely
to revisit the development of this domain, reassess its trajectory, and explore
strategies to enhance the scalability of RL toward Artificial SuperIntelligence
(ASI). In particular, we examine research applying RL to LLMs and LRMs for
reasoning abilities, especially since the release of DeepSeek-R1, including
foundational components, core problems, training resources, and downstream
applications, to identify future opportunities and directions for this rapidly
evolving area. We hope this review will promote future research on RL for
broader reasoning models. Github:
https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs