100 Dias Após o DeepSeek-R1: Um Estudo sobre Replicações e Além Diretrizes para Modelos de Linguagem de Raciocínio
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
May 1, 2025
Autores: Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
cs.AI
Resumo
O recente desenvolvimento de modelos de linguagem de raciocínio (RLMs) representa uma nova evolução nos grandes modelos de linguagem. Em particular, o lançamento recente do DeepSeek-R1 gerou um amplo impacto social e despertou entusiasmo na comunidade de pesquisa para explorar o paradigma de raciocínio explícito dos modelos de linguagem. No entanto, os detalhes de implementação dos modelos lançados não foram totalmente disponibilizados como código aberto pela DeepSeek, incluindo o DeepSeek-R1-Zero, o DeepSeek-R1 e os modelos pequenos destilados. Como resultado, muitos estudos de replicação surgiram com o objetivo de reproduzir o forte desempenho alcançado pelo DeepSeek-R1, atingindo desempenho comparável por meio de procedimentos de treinamento semelhantes e recursos de dados totalmente abertos. Esses trabalhos investigaram estratégias viáveis para ajuste fino supervisionado (SFT) e aprendizado por reforço com recompensas verificáveis (RLVR), focando na preparação de dados e no design de métodos, gerando diversos insights valiosos. Neste relatório, fornecemos um resumo dos estudos de replicação recentes para inspirar pesquisas futuras. Nos concentramos principalmente no SFT e no RLVR como duas direções principais, introduzindo os detalhes de construção de dados, design de métodos e procedimentos de treinamento dos estudos de replicação atuais. Além disso, concluímos descobertas-chave a partir dos detalhes de implementação e resultados experimentais relatados por esses estudos, com o objetivo de inspirar pesquisas futuras. Também discutimos técnicas adicionais para aprimorar RLMs, destacando o potencial de expandir o escopo de aplicação desses modelos e discutindo os desafios no desenvolvimento. Com este levantamento, pretendemos ajudar pesquisadores e desenvolvedores de RLMs a se manterem atualizados com os avanços mais recentes e buscar inspirar novas ideias para aprimorar ainda mais os RLMs.
English
The recent development of reasoning language models (RLMs) represents a novel
evolution in large language models. In particular, the recent release of
DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in
the research community for exploring the explicit reasoning paradigm of
language models. However, the implementation details of the released models
have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero,
DeepSeek-R1, and the distilled small models. As a result, many replication
studies have emerged aiming to reproduce the strong performance achieved by
DeepSeek-R1, reaching comparable performance through similar training
procedures and fully open-source data resources. These works have investigated
feasible strategies for supervised fine-tuning (SFT) and reinforcement learning
from verifiable rewards (RLVR), focusing on data preparation and method design,
yielding various valuable insights. In this report, we provide a summary of
recent replication studies to inspire future research. We primarily focus on
SFT and RLVR as two main directions, introducing the details for data
construction, method design and training procedure of current replication
studies. Moreover, we conclude key findings from the implementation details and
experimental results reported by these studies, anticipating to inspire future
research. We also discuss additional techniques of enhancing RLMs, highlighting
the potential of expanding the application scope of these models, and
discussing the challenges in development. By this survey, we aim to help
researchers and developers of RLMs stay updated with the latest advancements,
and seek to inspire new ideas to further enhance RLMs.