DeepSeek-R1 출시 100일: 복제 연구 및 추론 언어 모델을 위한 방향성 조사
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
May 1, 2025
저자: Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
cs.AI
초록
최근 추론 언어 모델(Reasoning Language Models, RLMs)의 발전은 대형 언어 모델의 새로운 진화를 나타냅니다. 특히, 최근 출시된 DeepSeek-R1은 광범위한 사회적 영향을 미치며 언어 모델의 명시적 추론 패러다임을 탐구하려는 연구 커뮤니티의 열정을 불러일으켰습니다. 그러나 DeepSeek-R1-Zero, DeepSeek-R1 및 소형 모델을 포함한 출시된 모델의 구현 세부 사항은 DeepSeek에 의해 완전히 오픈소스화되지 않았습니다. 이에 따라, DeepSeek-R1이 달성한 강력한 성능을 재현하기 위한 많은 복제 연구가 등장하여 유사한 훈련 절차와 완전히 오픈소스화된 데이터 리소스를 통해 비슷한 성능에 도달하려는 시도가 이루어졌습니다. 이러한 연구들은 검증 가능한 보상으로부터의 강화 학습(Reinforcement Learning from Verifiable Rewards, RLVR)과 지도 미세 조정(Supervised Fine-Tuning, SFT)을 위한 실현 가능한 전략을 조사하며, 데이터 준비와 방법 설계에 초점을 맞추어 다양한 가치 있는 통찰을 제공했습니다. 이 보고서에서는 최근의 복제 연구를 요약하여 향후 연구에 영감을 주고자 합니다. 우리는 주로 SFT와 RLVR을 두 가지 주요 방향으로 집중하며, 현재 복제 연구의 데이터 구성, 방법 설계 및 훈련 절차에 대한 세부 사항을 소개합니다. 또한, 이러한 연구에서 보고된 구현 세부 사항과 실험 결과로부터 주요 발견을 결론짓고, 이를 통해 향후 연구에 영감을 줄 것으로 기대합니다. 우리는 또한 RLMs를 강화하기 위한 추가 기술을 논의하며, 이러한 모델의 적용 범위를 확장할 가능성을 강조하고 개발 과정에서의 도전 과제를 논의합니다. 이 조사를 통해, 우리는 RLMs의 연구자와 개발자들이 최신 발전 동향을 파악하고, RLMs를 더욱 향상시킬 새로운 아이디어를 모색하는 데 도움을 주고자 합니다.
English
The recent development of reasoning language models (RLMs) represents a novel
evolution in large language models. In particular, the recent release of
DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in
the research community for exploring the explicit reasoning paradigm of
language models. However, the implementation details of the released models
have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero,
DeepSeek-R1, and the distilled small models. As a result, many replication
studies have emerged aiming to reproduce the strong performance achieved by
DeepSeek-R1, reaching comparable performance through similar training
procedures and fully open-source data resources. These works have investigated
feasible strategies for supervised fine-tuning (SFT) and reinforcement learning
from verifiable rewards (RLVR), focusing on data preparation and method design,
yielding various valuable insights. In this report, we provide a summary of
recent replication studies to inspire future research. We primarily focus on
SFT and RLVR as two main directions, introducing the details for data
construction, method design and training procedure of current replication
studies. Moreover, we conclude key findings from the implementation details and
experimental results reported by these studies, anticipating to inspire future
research. We also discuss additional techniques of enhancing RLMs, highlighting
the potential of expanding the application scope of these models, and
discussing the challenges in development. By this survey, we aim to help
researchers and developers of RLMs stay updated with the latest advancements,
and seek to inspire new ideas to further enhance RLMs.