100 Tage nach DeepSeek-R1: Eine Übersicht zu Replikationsstudien und mehr Richtungen für Reasoning-Sprachmodelle

papers.abstract

Die jüngste Entwicklung von Reasoning Language Models (RLMs) stellt eine neuartige Weiterentwicklung großer Sprachmodelle dar. Insbesondere die kürzliche Veröffentlichung von DeepSeek-R1 hat eine breite gesellschaftliche Wirkung entfaltet und Begeisterung in der Forschungsgemeinschaft für die Erforschung des expliziten Reasoning-Paradigmas von Sprachmodellen geweckt. Allerdings wurden die Implementierungsdetails der veröffentlichten Modelle, einschließlich DeepSeek-R1-Zero, DeepSeek-R1 und der destillierten kleinen Modelle, von DeepSeek nicht vollständig quelloffen gemacht. Infolgedessen sind zahlreiche Replikationsstudien entstanden, die darauf abzielen, die starke Leistung von DeepSeek-R1 nachzubilden und durch ähnliche Trainingsverfahren und vollständig quelloffene Datenressourcen vergleichbare Ergebnisse zu erzielen. Diese Arbeiten haben machbare Strategien für Supervised Fine-Tuning (SFT) und Reinforcement Learning from Verifiable Rewards (RLVR) untersucht, wobei der Schwerpunkt auf der Datenvorbereitung und Methodengestaltung lag, was zu verschiedenen wertvollen Erkenntnissen geführt hat. In diesem Bericht fassen wir aktuelle Replikationsstudien zusammen, um zukünftige Forschungen zu inspirieren. Wir konzentrieren uns hauptsächlich auf SFT und RLVR als zwei Hauptrichtungen und stellen die Details zur Datenkonstruktion, Methodengestaltung und Trainingsprozedur aktueller Replikationsstudien vor. Darüber hinaus fassen wir die wichtigsten Erkenntnisse aus den Implementierungsdetails und experimentellen Ergebnissen zusammen, die in diesen Studien berichtet wurden, in der Hoffnung, zukünftige Forschungen anzuregen. Wir diskutieren auch zusätzliche Techniken zur Verbesserung von RLMs, heben das Potenzial zur Erweiterung des Anwendungsbereichs dieser Modelle hervor und erörtern die Herausforderungen in der Entwicklung. Mit dieser Übersicht möchten wir Forscher und Entwickler von RLMs dabei unterstützen, über die neuesten Fortschritte auf dem Laufenden zu bleiben, und neue Ideen anregen, um RLMs weiter zu verbessern.

English

The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.

100 Tage nach DeepSeek-R1: Eine Übersicht zu Replikationsstudien und mehr Richtungen für Reasoning-Sprachmodelle

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

papers.abstract

Support