100 jours après DeepSeek-R1 : Une étude sur les travaux de réplication et les nouvelles orientations pour les modèles de langage de raisonnement
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
May 1, 2025
Auteurs: Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
cs.AI
Résumé
Le développement récent des modèles de langage à raisonnement (RLMs) représente une nouvelle évolution dans le domaine des grands modèles de langage. En particulier, la récente sortie de DeepSeek-R1 a eu un impact social considérable et suscité un enthousiasme marqué dans la communauté de recherche pour explorer le paradigme de raisonnement explicite des modèles de langage. Cependant, les détails d'implémentation des modèles publiés, y compris DeepSeek-R1-Zero, DeepSeek-R1 et les petits modèles distillés, n'ont pas été entièrement open-sourcés par DeepSeek. Par conséquent, de nombreuses études de réplication ont émergé, visant à reproduire les performances impressionnantes de DeepSeek-R1 en atteignant des résultats comparables grâce à des procédures d'entraînement similaires et à des ressources de données entièrement open-source. Ces travaux ont exploré des stratégies réalisables pour le fine-tuning supervisé (SFT) et l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR), en se concentrant sur la préparation des données et la conception des méthodes, ce qui a permis d'obtenir diverses insights précieuses. Dans ce rapport, nous résumons les études de réplication récentes afin d'inspirer de futures recherches. Nous nous concentrons principalement sur le SFT et le RLVR comme deux axes majeurs, en détaillant la construction des données, la conception des méthodes et les procédures d'entraînement des études de réplication actuelles. De plus, nous synthétisons les principaux enseignements tirés des détails d'implémentation et des résultats expérimentaux rapportés par ces études, dans l'espoir de stimuler de nouvelles recherches. Nous discutons également des techniques supplémentaires pour améliorer les RLMs, en mettant en lumière le potentiel d'élargir leur champ d'application et en abordant les défis liés à leur développement. Grâce à cette étude, nous visons à aider les chercheurs et développeurs de RLMs à rester informés des dernières avancées et à susciter de nouvelles idées pour améliorer davantage ces modèles.
English
The recent development of reasoning language models (RLMs) represents a novel
evolution in large language models. In particular, the recent release of
DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in
the research community for exploring the explicit reasoning paradigm of
language models. However, the implementation details of the released models
have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero,
DeepSeek-R1, and the distilled small models. As a result, many replication
studies have emerged aiming to reproduce the strong performance achieved by
DeepSeek-R1, reaching comparable performance through similar training
procedures and fully open-source data resources. These works have investigated
feasible strategies for supervised fine-tuning (SFT) and reinforcement learning
from verifiable rewards (RLVR), focusing on data preparation and method design,
yielding various valuable insights. In this report, we provide a summary of
recent replication studies to inspire future research. We primarily focus on
SFT and RLVR as two main directions, introducing the details for data
construction, method design and training procedure of current replication
studies. Moreover, we conclude key findings from the implementation details and
experimental results reported by these studies, anticipating to inspire future
research. We also discuss additional techniques of enhancing RLMs, highlighting
the potential of expanding the application scope of these models, and
discussing the challenges in development. By this survey, we aim to help
researchers and developers of RLMs stay updated with the latest advancements,
and seek to inspire new ideas to further enhance RLMs.