100 дней после DeepSeek-R1: Обзор исследований по воспроизведению и не только Направления развития языковых моделей для рассуждений
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
May 1, 2025
Авторы: Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
cs.AI
Аннотация
Недавнее развитие языковых моделей с возможностью рассуждений (Reasoning Language Models, RLMs) представляет собой новое направление эволюции крупных языковых моделей. В частности, выпуск модели DeepSeek-R1 вызвал широкий общественный резонанс и пробудил энтузиазм в исследовательском сообществе в отношении изучения явного парадигматического подхода к рассуждениям в языковых моделях. Однако детали реализации выпущенных моделей, включая DeepSeek-R1-Zero, DeepSeek-R1 и дистиллированные компактные модели, не были полностью открыты компанией DeepSeek. В результате появилось множество исследований, направленных на воспроизведение выдающихся результатов, достигнутых DeepSeek-R1, с использованием аналогичных процедур обучения и полностью открытых данных. Эти работы изучили возможные стратегии для контролируемого тонкого настройки (Supervised Fine-Tuning, SFT) и обучения с подкреплением на основе проверяемых наград (Reinforcement Learning from Verifiable Rewards, RLVR), сосредоточившись на подготовке данных и разработке методов, что привело к получению ценных инсайтов. В данном отчете мы суммируем результаты недавних исследований по воспроизведению, чтобы вдохновить будущие исследования. Основное внимание уделяется SFT и RLVR как двум основным направлениям, с описанием деталей построения данных, разработки методов и процедур обучения в текущих исследованиях. Кроме того, мы обобщаем ключевые выводы из деталей реализации и экспериментальных результатов, представленных в этих работах, с целью вдохновить дальнейшие исследования. Мы также обсуждаем дополнительные методы улучшения RLMs, подчеркивая потенциал расширения области применения этих моделей, и рассматриваем вызовы, связанные с их развитием. Этот обзор призван помочь исследователям и разработчикам RLMs быть в курсе последних достижений и вдохновить на новые идеи для дальнейшего совершенствования этих моделей.
English
The recent development of reasoning language models (RLMs) represents a novel
evolution in large language models. In particular, the recent release of
DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in
the research community for exploring the explicit reasoning paradigm of
language models. However, the implementation details of the released models
have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero,
DeepSeek-R1, and the distilled small models. As a result, many replication
studies have emerged aiming to reproduce the strong performance achieved by
DeepSeek-R1, reaching comparable performance through similar training
procedures and fully open-source data resources. These works have investigated
feasible strategies for supervised fine-tuning (SFT) and reinforcement learning
from verifiable rewards (RLVR), focusing on data preparation and method design,
yielding various valuable insights. In this report, we provide a summary of
recent replication studies to inspire future research. We primarily focus on
SFT and RLVR as two main directions, introducing the details for data
construction, method design and training procedure of current replication
studies. Moreover, we conclude key findings from the implementation details and
experimental results reported by these studies, anticipating to inspire future
research. We also discuss additional techniques of enhancing RLMs, highlighting
the potential of expanding the application scope of these models, and
discussing the challenges in development. By this survey, we aim to help
researchers and developers of RLMs stay updated with the latest advancements,
and seek to inspire new ideas to further enhance RLMs.