ChatPaper.aiChatPaper

Een overzicht van reinforcement learning voor grootschalige redeneermodellen

A Survey of Reinforcement Learning for Large Reasoning Models

September 10, 2025
Auteurs: Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou
cs.AI

Samenvatting

In dit artikel onderzoeken we recente vooruitgang in Reinforcement Learning (RL) voor redeneren met Large Language Models (LLMs). RL heeft opmerkelijke successen geboekt in het verleggen van de grenzen van LLM-mogelijkheden, met name bij het aanpakken van complexe logische taken zoals wiskunde en programmeren. Hierdoor is RL uitgegroeid tot een fundamentele methodologie voor het transformeren van LLMs in LRMs. Met de snelle vooruitgang in dit vakgebied wordt verdere schaalvergroting van RL voor LRMs nu geconfronteerd met fundamentele uitdagingen, niet alleen op het gebied van rekenbronnen, maar ook in algoritmeontwerp, trainingsdata en infrastructuur. Daarom is het tijd om de ontwikkeling van dit domein opnieuw te bekijken, de trajecten te herzien en strategieën te verkennen om de schaalbaarheid van RL richting Artificial SuperIntelligence (ASI) te verbeteren. In het bijzonder onderzoeken we onderzoek dat RL toepast op LLMs en LRMs voor redeneervaardigheden, vooral sinds de release van DeepSeek-R1, inclusief fundamentele componenten, kernproblemen, trainingsbronnen en downstream-toepassingen, om toekomstige kansen en richtingen voor dit snel evoluerende gebied te identificeren. We hopen dat deze review toekomstig onderzoek naar RL voor bredere redeneermodellen zal bevorderen. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
English
In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
PDF1835September 11, 2025