100 Dagen Na DeepSeek-R1: Een Overzicht van Replicatiestudies en Meer Richtlijnen voor Redeneertaalmodellen
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
May 1, 2025
Auteurs: Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
cs.AI
Samenvatting
De recente ontwikkeling van redenerende taalmodelen (RLMs) vertegenwoordigt een nieuwe evolutie in grote taalmodelen. In het bijzonder heeft de recente release van DeepSeek-R1 een brede maatschappelijke impact gehad en enthousiasme gewekt in de onderzoeksgemeenschap voor het verkennen van het expliciete redeneerparadigma van taalmodelen. Echter zijn de implementatiedetails van de vrijgegeven modellen, waaronder DeepSeek-R1-Zero, DeepSeek-R1 en de gedistilleerde kleine modellen, niet volledig openbaar gemaakt door DeepSeek. Als gevolg hiervan zijn er veel replicatiestudies ontstaan die ernaar streven de sterke prestaties van DeepSeek-R1 te reproduceren, waarbij vergelijkbare prestaties worden bereikt door vergelijkbare trainingsprocedures en volledig openbare databronnen. Deze studies hebben haalbare strategieën onderzocht voor supervised fine-tuning (SFT) en reinforcement learning van verifieerbare beloningen (RLVR), met een focus op datavoorbereiding en methodedesign, wat verschillende waardevolle inzichten heeft opgeleverd. In dit rapport bieden we een samenvatting van recente replicatiestudies om toekomstig onderzoek te inspireren. We richten ons voornamelijk op SFT en RLVR als twee hoofdrichtingen, waarbij we de details introduceren voor dataconstructie, methodedesign en trainingsprocedures van huidige replicatiestudies. Bovendien vatten we belangrijke bevindingen samen uit de implementatiedetails en experimentele resultaten die door deze studies zijn gerapporteerd, in de hoop toekomstig onderzoek te inspireren. We bespreken ook aanvullende technieken voor het verbeteren van RLMs, waarbij we het potentieel benadrukken om het toepassingsbereik van deze modellen uit te breiden, en de uitdagingen in de ontwikkeling bespreken. Met dit overzicht willen we onderzoekers en ontwikkelaars van RLMs helpen op de hoogte te blijven van de nieuwste ontwikkelingen, en streven we ernaar nieuwe ideeën te inspireren om RLMs verder te verbeteren.
English
The recent development of reasoning language models (RLMs) represents a novel
evolution in large language models. In particular, the recent release of
DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in
the research community for exploring the explicit reasoning paradigm of
language models. However, the implementation details of the released models
have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero,
DeepSeek-R1, and the distilled small models. As a result, many replication
studies have emerged aiming to reproduce the strong performance achieved by
DeepSeek-R1, reaching comparable performance through similar training
procedures and fully open-source data resources. These works have investigated
feasible strategies for supervised fine-tuning (SFT) and reinforcement learning
from verifiable rewards (RLVR), focusing on data preparation and method design,
yielding various valuable insights. In this report, we provide a summary of
recent replication studies to inspire future research. We primarily focus on
SFT and RLVR as two main directions, introducing the details for data
construction, method design and training procedure of current replication
studies. Moreover, we conclude key findings from the implementation details and
experimental results reported by these studies, anticipating to inspire future
research. We also discuss additional techniques of enhancing RLMs, highlighting
the potential of expanding the application scope of these models, and
discussing the challenges in development. By this survey, we aim to help
researchers and developers of RLMs stay updated with the latest advancements,
and seek to inspire new ideas to further enhance RLMs.