ChatPaper.aiChatPaper

100 Giorni Dopo DeepSeek-R1: Un'Indagine sugli Studi di Replica e Nuove Direzioni per i Modelli Linguistici di Ragionamento

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

May 1, 2025
Autori: Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
cs.AI

Abstract

Il recente sviluppo dei modelli linguistici di ragionamento (RLM) rappresenta una nuova evoluzione nei grandi modelli linguistici. In particolare, il recente rilascio di DeepSeek-R1 ha generato un ampio impatto sociale e ha suscitato entusiasmo nella comunità di ricerca per esplorare il paradigma di ragionamento esplicito dei modelli linguistici. Tuttavia, i dettagli implementativi dei modelli rilasciati non sono stati completamente open-source da parte di DeepSeek, inclusi DeepSeek-R1-Zero, DeepSeek-R1 e i modelli piccoli distillati. Di conseguenza, sono emersi molti studi di replicazione con l'obiettivo di riprodurre le prestazioni elevate raggiunte da DeepSeek-R1, ottenendo risultati comparabili attraverso procedure di addestramento simili e risorse dati completamente open-source. Questi lavori hanno esplorato strategie fattibili per il fine-tuning supervisionato (SFT) e l'apprendimento per rinforzo da ricompense verificabili (RLVR), concentrandosi sulla preparazione dei dati e sulla progettazione dei metodi, producendo varie intuizioni preziose. In questo rapporto, forniamo una sintesi dei recenti studi di replicazione per ispirare future ricerche. Ci concentriamo principalmente su SFT e RLVR come due direzioni principali, introducendo i dettagli per la costruzione dei dati, la progettazione dei metodi e le procedure di addestramento degli attuali studi di replicazione. Inoltre, concludiamo con i risultati chiave derivanti dai dettagli implementativi e dai risultati sperimentali riportati da questi studi, con l'obiettivo di ispirare future ricerche. Discutiamo anche tecniche aggiuntive per migliorare gli RLM, evidenziando il potenziale di espansione dell'ambito di applicazione di questi modelli e discutendo le sfide nello sviluppo. Con questa rassegna, miriamo a aiutare ricercatori e sviluppatori di RLM a rimanere aggiornati sugli ultimi progressi e a cercare di ispirare nuove idee per migliorare ulteriormente gli RLM.
English
The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.
PDF371May 4, 2025