100 Dagen Na DeepSeek-R1: Een Overzicht van Replicatiestudies en Meer Richtlijnen voor Redeneertaalmodellen

Samenvatting

De recente ontwikkeling van redenerende taalmodelen (RLMs) vertegenwoordigt een nieuwe evolutie in grote taalmodelen. In het bijzonder heeft de recente release van DeepSeek-R1 een brede maatschappelijke impact gehad en enthousiasme gewekt in de onderzoeksgemeenschap voor het verkennen van het expliciete redeneerparadigma van taalmodelen. Echter zijn de implementatiedetails van de vrijgegeven modellen, waaronder DeepSeek-R1-Zero, DeepSeek-R1 en de gedistilleerde kleine modellen, niet volledig openbaar gemaakt door DeepSeek. Als gevolg hiervan zijn er veel replicatiestudies ontstaan die ernaar streven de sterke prestaties van DeepSeek-R1 te reproduceren, waarbij vergelijkbare prestaties worden bereikt door vergelijkbare trainingsprocedures en volledig openbare databronnen. Deze studies hebben haalbare strategieën onderzocht voor supervised fine-tuning (SFT) en reinforcement learning van verifieerbare beloningen (RLVR), met een focus op datavoorbereiding en methodedesign, wat verschillende waardevolle inzichten heeft opgeleverd. In dit rapport bieden we een samenvatting van recente replicatiestudies om toekomstig onderzoek te inspireren. We richten ons voornamelijk op SFT en RLVR als twee hoofdrichtingen, waarbij we de details introduceren voor dataconstructie, methodedesign en trainingsprocedures van huidige replicatiestudies. Bovendien vatten we belangrijke bevindingen samen uit de implementatiedetails en experimentele resultaten die door deze studies zijn gerapporteerd, in de hoop toekomstig onderzoek te inspireren. We bespreken ook aanvullende technieken voor het verbeteren van RLMs, waarbij we het potentieel benadrukken om het toepassingsbereik van deze modellen uit te breiden, en de uitdagingen in de ontwikkeling bespreken. Met dit overzicht willen we onderzoekers en ontwikkelaars van RLMs helpen op de hoogte te blijven van de nieuwste ontwikkelingen, en streven we ernaar nieuwe ideeën te inspireren om RLMs verder te verbeteren.

English

The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.

100 Dagen Na DeepSeek-R1: Een Overzicht van Replicatiestudies en Meer Richtlijnen voor Redeneertaalmodellen

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

Samenvatting

Support