Une étude sur l'apprentissage par renforcement pour les modèles de raisonnement à grande échelle
A Survey of Reinforcement Learning for Large Reasoning Models
September 10, 2025
papers.authors: Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou
cs.AI
papers.abstract
Dans cet article, nous passons en revue les avancées récentes en Apprentissage par Renforcement (Reinforcement Learning, RL) pour le raisonnement avec les Modèles de Langage à Grande Échelle (Large Language Models, LLMs). Le RL a obtenu des succès remarquables en repoussant les limites des capacités des LLMs, notamment dans la résolution de tâches logiques complexes telles que les mathématiques et la programmation. Par conséquent, le RL s'est imposé comme une méthodologie fondamentale pour transformer les LLMs en LRMs (Logical Reasoning Models). Avec les progrès rapides du domaine, la mise à l'échelle du RL pour les LRMs se heurte désormais à des défis fondamentaux, non seulement en termes de ressources computationnelles, mais aussi dans la conception des algorithmes, les données d'entraînement et l'infrastructure. Il est donc opportun de revisiter le développement de ce domaine, de réévaluer sa trajectoire et d'explorer des stratégies pour améliorer l'évolutivité du RL vers une SuperIntelligence Artificielle (Artificial SuperIntelligence, ASI). En particulier, nous examinons les recherches appliquant le RL aux LLMs et LRMs pour les capacités de raisonnement, notamment depuis la sortie de DeepSeek-R1, en incluant les composants fondamentaux, les problèmes centraux, les ressources d'entraînement et les applications en aval, afin d'identifier les opportunités et les orientations futures pour ce domaine en évolution rapide. Nous espérons que cette revue stimulera les recherches futures sur le RL pour des modèles de raisonnement plus étendus. Github : https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
English
In this paper, we survey recent advances in Reinforcement Learning (RL) for
reasoning with Large Language Models (LLMs). RL has achieved remarkable success
in advancing the frontier of LLM capabilities, particularly in addressing
complex logical tasks such as mathematics and coding. As a result, RL has
emerged as a foundational methodology for transforming LLMs into LRMs. With the
rapid progress of the field, further scaling of RL for LRMs now faces
foundational challenges not only in computational resources but also in
algorithm design, training data, and infrastructure. To this end, it is timely
to revisit the development of this domain, reassess its trajectory, and explore
strategies to enhance the scalability of RL toward Artificial SuperIntelligence
(ASI). In particular, we examine research applying RL to LLMs and LRMs for
reasoning abilities, especially since the release of DeepSeek-R1, including
foundational components, core problems, training resources, and downstream
applications, to identify future opportunities and directions for this rapidly
evolving area. We hope this review will promote future research on RL for
broader reasoning models. Github:
https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs