100 Tage nach DeepSeek-R1: Eine Übersicht zu Replikationsstudien und mehr Richtungen für Reasoning-Sprachmodelle
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
May 1, 2025
Autoren: Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
cs.AI
Zusammenfassung
Die jüngste Entwicklung von Reasoning Language Models (RLMs) stellt eine neuartige Weiterentwicklung großer Sprachmodelle dar. Insbesondere die kürzliche Veröffentlichung von DeepSeek-R1 hat eine breite gesellschaftliche Wirkung entfaltet und Begeisterung in der Forschungsgemeinschaft für die Erforschung des expliziten Reasoning-Paradigmas von Sprachmodellen geweckt. Allerdings wurden die Implementierungsdetails der veröffentlichten Modelle, einschließlich DeepSeek-R1-Zero, DeepSeek-R1 und der destillierten kleinen Modelle, von DeepSeek nicht vollständig quelloffen gemacht. Infolgedessen sind zahlreiche Replikationsstudien entstanden, die darauf abzielen, die starke Leistung von DeepSeek-R1 nachzubilden und durch ähnliche Trainingsverfahren und vollständig quelloffene Datenressourcen vergleichbare Ergebnisse zu erzielen. Diese Arbeiten haben machbare Strategien für Supervised Fine-Tuning (SFT) und Reinforcement Learning from Verifiable Rewards (RLVR) untersucht, wobei der Schwerpunkt auf der Datenvorbereitung und Methodengestaltung lag, was zu verschiedenen wertvollen Erkenntnissen geführt hat. In diesem Bericht fassen wir aktuelle Replikationsstudien zusammen, um zukünftige Forschungen zu inspirieren. Wir konzentrieren uns hauptsächlich auf SFT und RLVR als zwei Hauptrichtungen und stellen die Details zur Datenkonstruktion, Methodengestaltung und Trainingsprozedur aktueller Replikationsstudien vor. Darüber hinaus fassen wir die wichtigsten Erkenntnisse aus den Implementierungsdetails und experimentellen Ergebnissen zusammen, die in diesen Studien berichtet wurden, in der Hoffnung, zukünftige Forschungen anzuregen. Wir diskutieren auch zusätzliche Techniken zur Verbesserung von RLMs, heben das Potenzial zur Erweiterung des Anwendungsbereichs dieser Modelle hervor und erörtern die Herausforderungen in der Entwicklung. Mit dieser Übersicht möchten wir Forscher und Entwickler von RLMs dabei unterstützen, über die neuesten Fortschritte auf dem Laufenden zu bleiben, und neue Ideen anregen, um RLMs weiter zu verbessern.
English
The recent development of reasoning language models (RLMs) represents a novel
evolution in large language models. In particular, the recent release of
DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in
the research community for exploring the explicit reasoning paradigm of
language models. However, the implementation details of the released models
have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero,
DeepSeek-R1, and the distilled small models. As a result, many replication
studies have emerged aiming to reproduce the strong performance achieved by
DeepSeek-R1, reaching comparable performance through similar training
procedures and fully open-source data resources. These works have investigated
feasible strategies for supervised fine-tuning (SFT) and reinforcement learning
from verifiable rewards (RLVR), focusing on data preparation and method design,
yielding various valuable insights. In this report, we provide a summary of
recent replication studies to inspire future research. We primarily focus on
SFT and RLVR as two main directions, introducing the details for data
construction, method design and training procedure of current replication
studies. Moreover, we conclude key findings from the implementation details and
experimental results reported by these studies, anticipating to inspire future
research. We also discuss additional techniques of enhancing RLMs, highlighting
the potential of expanding the application scope of these models, and
discussing the challenges in development. By this survey, we aim to help
researchers and developers of RLMs stay updated with the latest advancements,
and seek to inspire new ideas to further enhance RLMs.