100 Dias Após o DeepSeek-R1: Um Estudo sobre Replicações e Além Diretrizes para Modelos de Linguagem de Raciocínio

Resumo

O recente desenvolvimento de modelos de linguagem de raciocínio (RLMs) representa uma nova evolução nos grandes modelos de linguagem. Em particular, o lançamento recente do DeepSeek-R1 gerou um amplo impacto social e despertou entusiasmo na comunidade de pesquisa para explorar o paradigma de raciocínio explícito dos modelos de linguagem. No entanto, os detalhes de implementação dos modelos lançados não foram totalmente disponibilizados como código aberto pela DeepSeek, incluindo o DeepSeek-R1-Zero, o DeepSeek-R1 e os modelos pequenos destilados. Como resultado, muitos estudos de replicação surgiram com o objetivo de reproduzir o forte desempenho alcançado pelo DeepSeek-R1, atingindo desempenho comparável por meio de procedimentos de treinamento semelhantes e recursos de dados totalmente abertos. Esses trabalhos investigaram estratégias viáveis para ajuste fino supervisionado (SFT) e aprendizado por reforço com recompensas verificáveis (RLVR), focando na preparação de dados e no design de métodos, gerando diversos insights valiosos. Neste relatório, fornecemos um resumo dos estudos de replicação recentes para inspirar pesquisas futuras. Nos concentramos principalmente no SFT e no RLVR como duas direções principais, introduzindo os detalhes de construção de dados, design de métodos e procedimentos de treinamento dos estudos de replicação atuais. Além disso, concluímos descobertas-chave a partir dos detalhes de implementação e resultados experimentais relatados por esses estudos, com o objetivo de inspirar pesquisas futuras. Também discutimos técnicas adicionais para aprimorar RLMs, destacando o potencial de expandir o escopo de aplicação desses modelos e discutindo os desafios no desenvolvimento. Com este levantamento, pretendemos ajudar pesquisadores e desenvolvedores de RLMs a se manterem atualizados com os avanços mais recentes e buscar inspirar novas ideias para aprimorar ainda mais os RLMs.

English

The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.

100 Dias Após o DeepSeek-R1: Um Estudo sobre Replicações e Além Diretrizes para Modelos de Linguagem de Raciocínio

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

Resumo

Support