ChatPaper.aiChatPaper

Una revisión del aprendizaje por refuerzo para modelos de razonamiento a gran escala

A Survey of Reinforcement Learning for Large Reasoning Models

September 10, 2025
Autores: Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou
cs.AI

Resumen

En este artículo, revisamos los avances recientes en Aprendizaje por Refuerzo (RL, por sus siglas en inglés) aplicado al razonamiento con Modelos de Lenguaje a Gran Escala (LLMs). El RL ha logrado un éxito notable al impulsar las capacidades de los LLMs, especialmente en la resolución de tareas lógicas complejas como las matemáticas y la programación. Como resultado, el RL se ha consolidado como una metodología fundamental para transformar los LLMs en Modelos de Razonamiento a Gran Escala (LRMs). Con el rápido progreso del campo, la escalabilidad del RL para los LRMs enfrenta ahora desafíos fundamentales, no solo en términos de recursos computacionales, sino también en el diseño de algoritmos, los datos de entrenamiento y la infraestructura. Por ello, es oportuno revisar el desarrollo de este dominio, reevaluar su trayectoria y explorar estrategias para mejorar la escalabilidad del RL hacia la SuperInteligencia Artificial (ASI). En particular, examinamos investigaciones que aplican el RL a LLMs y LRMs para mejorar las habilidades de razonamiento, especialmente desde el lanzamiento de DeepSeek-R1, incluyendo componentes fundamentales, problemas centrales, recursos de entrenamiento y aplicaciones posteriores, con el fin de identificar oportunidades y direcciones futuras para esta área en rápida evolución. Esperamos que esta revisión promueva futuras investigaciones sobre el RL para modelos de razonamiento más amplios. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
English
In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
PDF1255September 11, 2025