ChatPaper.aiChatPaper

100 jours après DeepSeek-R1 : Une étude sur les travaux de réplication et les nouvelles orientations pour les modèles de langage de raisonnement

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

May 1, 2025
Auteurs: Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
cs.AI

Résumé

Le développement récent des modèles de langage à raisonnement (RLMs) représente une nouvelle évolution dans le domaine des grands modèles de langage. En particulier, la récente sortie de DeepSeek-R1 a eu un impact social considérable et suscité un enthousiasme marqué dans la communauté de recherche pour explorer le paradigme de raisonnement explicite des modèles de langage. Cependant, les détails d'implémentation des modèles publiés, y compris DeepSeek-R1-Zero, DeepSeek-R1 et les petits modèles distillés, n'ont pas été entièrement open-sourcés par DeepSeek. Par conséquent, de nombreuses études de réplication ont émergé, visant à reproduire les performances impressionnantes de DeepSeek-R1 en atteignant des résultats comparables grâce à des procédures d'entraînement similaires et à des ressources de données entièrement open-source. Ces travaux ont exploré des stratégies réalisables pour le fine-tuning supervisé (SFT) et l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR), en se concentrant sur la préparation des données et la conception des méthodes, ce qui a permis d'obtenir diverses insights précieuses. Dans ce rapport, nous résumons les études de réplication récentes afin d'inspirer de futures recherches. Nous nous concentrons principalement sur le SFT et le RLVR comme deux axes majeurs, en détaillant la construction des données, la conception des méthodes et les procédures d'entraînement des études de réplication actuelles. De plus, nous synthétisons les principaux enseignements tirés des détails d'implémentation et des résultats expérimentaux rapportés par ces études, dans l'espoir de stimuler de nouvelles recherches. Nous discutons également des techniques supplémentaires pour améliorer les RLMs, en mettant en lumière le potentiel d'élargir leur champ d'application et en abordant les défis liés à leur développement. Grâce à cette étude, nous visons à aider les chercheurs et développeurs de RLMs à rester informés des dernières avancées et à susciter de nouvelles idées pour améliorer davantage ces modèles.
English
The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.
PDF371May 4, 2025