Обзор методов обучения с подкреплением для крупномасштабных моделей логического вывода
A Survey of Reinforcement Learning for Large Reasoning Models
September 10, 2025
Авторы: Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou
cs.AI
Аннотация
В данной статье мы рассматриваем последние достижения в области обучения с подкреплением (Reinforcement Learning, RL) для работы с большими языковыми моделями (Large Language Models, LLMs) в задачах логического рассуждения. RL продемонстрировал впечатляющие успехи в расширении возможностей LLMs, особенно в решении сложных логических задач, таких как математика и программирование. В результате RL стал основополагающей методологией для преобразования LLMs в LRMs (Language Reasoning Models). Однако с быстрым развитием этой области дальнейшее масштабирование RL для LRMs сталкивается с фундаментальными вызовами, включая не только вычислительные ресурсы, но и проектирование алгоритмов, обучающие данные и инфраструктуру. В связи с этим актуально пересмотреть развитие этой области, переоценить её траекторию и изучить стратегии для повышения масштабируемости RL в направлении создания искусственного сверхинтеллекта (Artificial SuperIntelligence, ASI). В частности, мы анализируем исследования, применяющие RL к LLMs и LRMs для развития способностей к рассуждению, особенно после выпуска модели DeepSeek-R1, включая фундаментальные компоненты, ключевые проблемы, обучающие ресурсы и приложения, чтобы определить будущие возможности и направления для этой быстро развивающейся области. Мы надеемся, что этот обзор будет способствовать дальнейшим исследованиям в области RL для более широких моделей рассуждения. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
English
In this paper, we survey recent advances in Reinforcement Learning (RL) for
reasoning with Large Language Models (LLMs). RL has achieved remarkable success
in advancing the frontier of LLM capabilities, particularly in addressing
complex logical tasks such as mathematics and coding. As a result, RL has
emerged as a foundational methodology for transforming LLMs into LRMs. With the
rapid progress of the field, further scaling of RL for LRMs now faces
foundational challenges not only in computational resources but also in
algorithm design, training data, and infrastructure. To this end, it is timely
to revisit the development of this domain, reassess its trajectory, and explore
strategies to enhance the scalability of RL toward Artificial SuperIntelligence
(ASI). In particular, we examine research applying RL to LLMs and LRMs for
reasoning abilities, especially since the release of DeepSeek-R1, including
foundational components, core problems, training resources, and downstream
applications, to identify future opportunities and directions for this rapidly
evolving area. We hope this review will promote future research on RL for
broader reasoning models. Github:
https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs