Un Estudio Empírico sobre la Obtención y Mejora de Modelos de Razonamiento Tipo R1

Resumen

En este informe, presentamos el tercer reporte técnico sobre el desarrollo de modelos de pensamiento lento como parte del proyecto STILL. A medida que la ruta técnica se vuelve más clara, el escalamiento del entrenamiento de RL se ha convertido en una técnica central para implementar dichos modelos de razonamiento. Experimentamos de manera sistemática y documentamos los efectos de varios factores que influyen en el entrenamiento de RL, realizando experimentos tanto en modelos base como en modelos ajustados. Específicamente, demostramos que nuestro enfoque de entrenamiento de RL mejora consistentemente los modelos base Qwen2.5-32B, aumentando tanto la longitud de las respuestas como la precisión en las pruebas. Además, mostramos que incluso cuando un modelo como DeepSeek-R1-Distill-Qwen-1.5B ya ha alcanzado un alto nivel de rendimiento, puede refinarse aún más mediante el entrenamiento de RL, logrando una precisión del 39.33% en AIME 2024. Más allá del entrenamiento de RL, también exploramos el uso de la manipulación de herramientas, encontrando que esta mejora significativamente el rendimiento de razonamiento de los modelos grandes de razonamiento. Este enfoque alcanza una precisión notable del 86.67% con búsqueda codiciosa en AIME 2024, destacando su efectividad para mejorar las capacidades del modelo. Publicamos nuestros recursos en el sitio web del proyecto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

English

In this report, we present the third technical report on the development of slow-thinking models as part of the STILL project. As the technical pathway becomes clearer, scaling RL training has become a central technique for implementing such reasoning models. We systematically experiment with and document the effects of various factors influencing RL training, conducting experiments on both base models and fine-tuned models. Specifically, we demonstrate that our RL training approach consistently improves the Qwen2.5-32B base models, enhancing both response length and test accuracy. Furthermore, we show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already achieved a high performance level, it can be further refined through RL training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we also explore the use of tool manipulation, finding that it significantly boosts the reasoning performance of large reasoning models. This approach achieves a remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its effectiveness in enhancing model capabilities. We release our resources at the STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

Un Estudio Empírico sobre la Obtención y Mejora de Modelos de Razonamiento Tipo R1

An Empirical Study on Eliciting and Improving R1-like Reasoning Models

Resumen

Support