100 días después de DeepSeek-R1: Un estudio sobre replicaciones y más Direcciones para modelos de lenguaje de razonamiento
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
May 1, 2025
Autores: Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
cs.AI
Resumen
El reciente desarrollo de los modelos de lenguaje de razonamiento (RLMs, por sus siglas en inglés) representa una nueva evolución en los modelos de lenguaje de gran escala. En particular, el lanzamiento reciente de DeepSeek-R1 ha generado un amplio impacto social y ha despertado entusiasmo en la comunidad de investigación para explorar el paradigma de razonamiento explícito en los modelos de lenguaje. Sin embargo, los detalles de implementación de los modelos publicados no han sido completamente liberados por DeepSeek, incluyendo DeepSeek-R1-Zero, DeepSeek-R1 y los modelos pequeños destilados. Como resultado, han surgido numerosos estudios de replicación con el objetivo de reproducir el alto rendimiento alcanzado por DeepSeek-R1, logrando un desempeño comparable mediante procedimientos de entrenamiento similares y recursos de datos completamente abiertos. Estos trabajos han investigado estrategias viables para el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo basado en recompensas verificables (RLVR), centrándose en la preparación de datos y el diseño de métodos, obteniendo así diversas ideas valiosas. En este informe, proporcionamos un resumen de los estudios de replicación recientes para inspirar futuras investigaciones. Nos enfocamos principalmente en SFT y RLVR como dos direcciones principales, introduciendo los detalles sobre la construcción de datos, el diseño de métodos y los procedimientos de entrenamiento de los estudios de replicación actuales. Además, concluimos hallazgos clave a partir de los detalles de implementación y los resultados experimentales reportados por estos estudios, con el objetivo de inspirar futuras investigaciones. También discutimos técnicas adicionales para mejorar los RLMs, destacando el potencial de ampliar el alcance de aplicación de estos modelos y analizando los desafíos en su desarrollo. Con este estudio, buscamos ayudar a investigadores y desarrolladores de RLMs a mantenerse actualizados con los últimos avances y fomentar nuevas ideas para seguir mejorando estos modelos.
English
The recent development of reasoning language models (RLMs) represents a novel
evolution in large language models. In particular, the recent release of
DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in
the research community for exploring the explicit reasoning paradigm of
language models. However, the implementation details of the released models
have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero,
DeepSeek-R1, and the distilled small models. As a result, many replication
studies have emerged aiming to reproduce the strong performance achieved by
DeepSeek-R1, reaching comparable performance through similar training
procedures and fully open-source data resources. These works have investigated
feasible strategies for supervised fine-tuning (SFT) and reinforcement learning
from verifiable rewards (RLVR), focusing on data preparation and method design,
yielding various valuable insights. In this report, we provide a summary of
recent replication studies to inspire future research. We primarily focus on
SFT and RLVR as two main directions, introducing the details for data
construction, method design and training procedure of current replication
studies. Moreover, we conclude key findings from the implementation details and
experimental results reported by these studies, anticipating to inspire future
research. We also discuss additional techniques of enhancing RLMs, highlighting
the potential of expanding the application scope of these models, and
discussing the challenges in development. By this survey, we aim to help
researchers and developers of RLMs stay updated with the latest advancements,
and seek to inspire new ideas to further enhance RLMs.