100 дней после DeepSeek-R1: Обзор исследований по воспроизведению и не только Направления развития языковых моделей для рассуждений

Аннотация

Недавнее развитие языковых моделей с возможностью рассуждений (Reasoning Language Models, RLMs) представляет собой новое направление эволюции крупных языковых моделей. В частности, выпуск модели DeepSeek-R1 вызвал широкий общественный резонанс и пробудил энтузиазм в исследовательском сообществе в отношении изучения явного парадигматического подхода к рассуждениям в языковых моделях. Однако детали реализации выпущенных моделей, включая DeepSeek-R1-Zero, DeepSeek-R1 и дистиллированные компактные модели, не были полностью открыты компанией DeepSeek. В результате появилось множество исследований, направленных на воспроизведение выдающихся результатов, достигнутых DeepSeek-R1, с использованием аналогичных процедур обучения и полностью открытых данных. Эти работы изучили возможные стратегии для контролируемого тонкого настройки (Supervised Fine-Tuning, SFT) и обучения с подкреплением на основе проверяемых наград (Reinforcement Learning from Verifiable Rewards, RLVR), сосредоточившись на подготовке данных и разработке методов, что привело к получению ценных инсайтов. В данном отчете мы суммируем результаты недавних исследований по воспроизведению, чтобы вдохновить будущие исследования. Основное внимание уделяется SFT и RLVR как двум основным направлениям, с описанием деталей построения данных, разработки методов и процедур обучения в текущих исследованиях. Кроме того, мы обобщаем ключевые выводы из деталей реализации и экспериментальных результатов, представленных в этих работах, с целью вдохновить дальнейшие исследования. Мы также обсуждаем дополнительные методы улучшения RLMs, подчеркивая потенциал расширения области применения этих моделей, и рассматриваем вызовы, связанные с их развитием. Этот обзор призван помочь исследователям и разработчикам RLMs быть в курсе последних достижений и вдохновить на новые идеи для дальнейшего совершенствования этих моделей.

English

The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.

100 дней после DeepSeek-R1: Обзор исследований по воспроизведению и не только Направления развития языковых моделей для рассуждений

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

Аннотация

Support