Un Estudio Empírico sobre la Obtención y Mejora de Modelos de Razonamiento Tipo R1
An Empirical Study on Eliciting and Improving R1-like Reasoning Models
March 6, 2025
Autores: Zhipeng Chen, Yingqian Min, Beichen Zhang, Jie Chen, Jinhao Jiang, Daixuan Cheng, Wayne Xin Zhao, Zheng Liu, Xu Miao, Yang Lu, Lei Fang, Zhongyuan Wang, Ji-Rong Wen
cs.AI
Resumen
En este informe, presentamos el tercer reporte técnico sobre el desarrollo de modelos de pensamiento lento como parte del proyecto STILL. A medida que la ruta técnica se vuelve más clara, el escalamiento del entrenamiento de RL se ha convertido en una técnica central para implementar dichos modelos de razonamiento. Experimentamos de manera sistemática y documentamos los efectos de varios factores que influyen en el entrenamiento de RL, realizando experimentos tanto en modelos base como en modelos ajustados. Específicamente, demostramos que nuestro enfoque de entrenamiento de RL mejora consistentemente los modelos base Qwen2.5-32B, aumentando tanto la longitud de las respuestas como la precisión en las pruebas. Además, mostramos que incluso cuando un modelo como DeepSeek-R1-Distill-Qwen-1.5B ya ha alcanzado un alto nivel de rendimiento, puede refinarse aún más mediante el entrenamiento de RL, logrando una precisión del 39.33% en AIME 2024. Más allá del entrenamiento de RL, también exploramos el uso de la manipulación de herramientas, encontrando que esta mejora significativamente el rendimiento de razonamiento de los modelos grandes de razonamiento. Este enfoque alcanza una precisión notable del 86.67% con búsqueda codiciosa en AIME 2024, destacando su efectividad para mejorar las capacidades del modelo. Publicamos nuestros recursos en el sitio web del proyecto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In this report, we present the third technical report on the development of
slow-thinking models as part of the STILL project. As the technical pathway
becomes clearer, scaling RL training has become a central technique for
implementing such reasoning models. We systematically experiment with and
document the effects of various factors influencing RL training, conducting
experiments on both base models and fine-tuned models. Specifically, we
demonstrate that our RL training approach consistently improves the Qwen2.5-32B
base models, enhancing both response length and test accuracy. Furthermore, we
show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already
achieved a high performance level, it can be further refined through RL
training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we
also explore the use of tool manipulation, finding that it significantly boosts
the reasoning performance of large reasoning models. This approach achieves a
remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its
effectiveness in enhancing model capabilities. We release our resources at the
STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary