ChatPaper.aiChatPaper

100 días después de DeepSeek-R1: Un estudio sobre replicaciones y más Direcciones para modelos de lenguaje de razonamiento

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

May 1, 2025
Autores: Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
cs.AI

Resumen

El reciente desarrollo de los modelos de lenguaje de razonamiento (RLMs, por sus siglas en inglés) representa una nueva evolución en los modelos de lenguaje de gran escala. En particular, el lanzamiento reciente de DeepSeek-R1 ha generado un amplio impacto social y ha despertado entusiasmo en la comunidad de investigación para explorar el paradigma de razonamiento explícito en los modelos de lenguaje. Sin embargo, los detalles de implementación de los modelos publicados no han sido completamente liberados por DeepSeek, incluyendo DeepSeek-R1-Zero, DeepSeek-R1 y los modelos pequeños destilados. Como resultado, han surgido numerosos estudios de replicación con el objetivo de reproducir el alto rendimiento alcanzado por DeepSeek-R1, logrando un desempeño comparable mediante procedimientos de entrenamiento similares y recursos de datos completamente abiertos. Estos trabajos han investigado estrategias viables para el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo basado en recompensas verificables (RLVR), centrándose en la preparación de datos y el diseño de métodos, obteniendo así diversas ideas valiosas. En este informe, proporcionamos un resumen de los estudios de replicación recientes para inspirar futuras investigaciones. Nos enfocamos principalmente en SFT y RLVR como dos direcciones principales, introduciendo los detalles sobre la construcción de datos, el diseño de métodos y los procedimientos de entrenamiento de los estudios de replicación actuales. Además, concluimos hallazgos clave a partir de los detalles de implementación y los resultados experimentales reportados por estos estudios, con el objetivo de inspirar futuras investigaciones. También discutimos técnicas adicionales para mejorar los RLMs, destacando el potencial de ampliar el alcance de aplicación de estos modelos y analizando los desafíos en su desarrollo. Con este estudio, buscamos ayudar a investigadores y desarrolladores de RLMs a mantenerse actualizados con los últimos avances y fomentar nuevas ideas para seguir mejorando estos modelos.
English
The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.
PDF371May 4, 2025