Uma Análise do Aprendizado por Reforço para Modelos de Raciocínio em Grande Escala
A Survey of Reinforcement Learning for Large Reasoning Models
September 10, 2025
Autores: Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou
cs.AI
Resumo
Neste artigo, revisamos os avanços recentes no Aprendizado por Reforço (RL) para raciocínio com Modelos de Linguagem de Grande Escala (LLMs). O RL tem alcançado sucesso notável em expandir as capacidades dos LLMs, particularmente na resolução de tarefas lógicas complexas, como matemática e programação. Como resultado, o RL emergiu como uma metodologia fundamental para transformar LLMs em LRMs. Com o rápido progresso do campo, a escalabilidade do RL para LRMs agora enfrenta desafios fundamentais, não apenas em recursos computacionais, mas também no design de algoritmos, dados de treinamento e infraestrutura. Diante disso, é oportuno revisitar o desenvolvimento dessa área, reavaliar sua trajetória e explorar estratégias para melhorar a escalabilidade do RL em direção à Superinteligência Artificial (ASI). Em particular, examinamos pesquisas que aplicam RL a LLMs e LRMs para habilidades de raciocínio, especialmente desde o lançamento do DeepSeek-R1, incluindo componentes fundamentais, problemas centrais, recursos de treinamento e aplicações subsequentes, com o objetivo de identificar oportunidades e direções futuras para essa área em rápida evolução. Esperamos que esta revisão promova pesquisas futuras sobre RL para modelos de raciocínio mais amplos. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
English
In this paper, we survey recent advances in Reinforcement Learning (RL) for
reasoning with Large Language Models (LLMs). RL has achieved remarkable success
in advancing the frontier of LLM capabilities, particularly in addressing
complex logical tasks such as mathematics and coding. As a result, RL has
emerged as a foundational methodology for transforming LLMs into LRMs. With the
rapid progress of the field, further scaling of RL for LRMs now faces
foundational challenges not only in computational resources but also in
algorithm design, training data, and infrastructure. To this end, it is timely
to revisit the development of this domain, reassess its trajectory, and explore
strategies to enhance the scalability of RL toward Artificial SuperIntelligence
(ASI). In particular, we examine research applying RL to LLMs and LRMs for
reasoning abilities, especially since the release of DeepSeek-R1, including
foundational components, core problems, training resources, and downstream
applications, to identify future opportunities and directions for this rapidly
evolving area. We hope this review will promote future research on RL for
broader reasoning models. Github:
https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs