Una Rassegna sull'Apprendimento per Rinforzo per Modelli di Ragionamento su Grande Scala
A Survey of Reinforcement Learning for Large Reasoning Models
September 10, 2025
Autori: Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou
cs.AI
Abstract
In questo articolo, esaminiamo i recenti progressi nell'apprendimento per rinforzo (Reinforcement Learning, RL) applicato al ragionamento con modelli linguistici di grandi dimensioni (Large Language Models, LLMs). L'RL ha ottenuto risultati notevoli nel potenziare le capacità degli LLMs, in particolare nell'affrontare compiti logici complessi come la matematica e la programmazione. Di conseguenza, l'RL è emerso come una metodologia fondamentale per trasformare gli LLMs in LRMs (Large Reasoning Models). Con il rapido avanzamento del campo, l'ulteriore scalabilità dell'RL per gli LRMs si scontra ora con sfide fondamentali non solo in termini di risorse computazionali, ma anche nella progettazione degli algoritmi, nei dati di addestramento e nelle infrastrutture. A tal fine, è opportuno riesaminare lo sviluppo di questo dominio, valutarne la traiettoria ed esplorare strategie per migliorare la scalabilità dell'RL verso la SuperIntelligenza Artificiale (Artificial SuperIntelligence, ASI). In particolare, analizziamo la ricerca che applica l'RL agli LLMs e agli LRMs per le capacità di ragionamento, soprattutto a partire dal rilascio di DeepSeek-R1, includendo componenti fondamentali, problemi centrali, risorse di addestramento e applicazioni downstream, per identificare opportunità e direzioni future in questo settore in rapida evoluzione. Speriamo che questa rassegna promuova ulteriori ricerche sull'RL per modelli di ragionamento più ampi. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
English
In this paper, we survey recent advances in Reinforcement Learning (RL) for
reasoning with Large Language Models (LLMs). RL has achieved remarkable success
in advancing the frontier of LLM capabilities, particularly in addressing
complex logical tasks such as mathematics and coding. As a result, RL has
emerged as a foundational methodology for transforming LLMs into LRMs. With the
rapid progress of the field, further scaling of RL for LRMs now faces
foundational challenges not only in computational resources but also in
algorithm design, training data, and infrastructure. To this end, it is timely
to revisit the development of this domain, reassess its trajectory, and explore
strategies to enhance the scalability of RL toward Artificial SuperIntelligence
(ASI). In particular, we examine research applying RL to LLMs and LRMs for
reasoning abilities, especially since the release of DeepSeek-R1, including
foundational components, core problems, training resources, and downstream
applications, to identify future opportunities and directions for this rapidly
evolving area. We hope this review will promote future research on RL for
broader reasoning models. Github:
https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs