Une étude empirique sur l'extraction et l'amélioration des modèles de raisonnement de type R1
An Empirical Study on Eliciting and Improving R1-like Reasoning Models
March 6, 2025
Auteurs: Zhipeng Chen, Yingqian Min, Beichen Zhang, Jie Chen, Jinhao Jiang, Daixuan Cheng, Wayne Xin Zhao, Zheng Liu, Xu Miao, Yang Lu, Lei Fang, Zhongyuan Wang, Ji-Rong Wen
cs.AI
Résumé
Dans ce rapport, nous présentons le troisième rapport technique sur le développement de modèles de pensée lente dans le cadre du projet STILL. Alors que la voie technique devient plus claire, la mise à l'échelle de l'entraînement par apprentissage par renforcement (RL) est devenue une technique centrale pour la mise en œuvre de tels modèles de raisonnement. Nous expérimentons systématiquement et documentons les effets de divers facteurs influençant l'entraînement RL, en menant des expériences sur des modèles de base et des modèles affinés. Plus précisément, nous démontrons que notre approche d'entraînement RL améliore de manière constante les modèles de base Qwen2.5-32B, en augmentant à la fois la longueur des réponses et la précision des tests. De plus, nous montrons que même lorsqu'un modèle comme DeepSeek-R1-Distill-Qwen-1.5B a déjà atteint un niveau de performance élevé, il peut être encore affiné par l'entraînement RL, atteignant une précision de 39,33 % sur AIME 2024. Au-delà de l'entraînement RL, nous explorons également l'utilisation de la manipulation d'outils, constatant qu'elle améliore significativement les performances de raisonnement des grands modèles de raisonnement. Cette approche atteint une précision remarquable de 86,67 % avec une recherche gloutonne sur AIME 2024, soulignant son efficacité pour améliorer les capacités des modèles. Nous mettons à disposition nos ressources sur le site web du projet STILL : https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In this report, we present the third technical report on the development of
slow-thinking models as part of the STILL project. As the technical pathway
becomes clearer, scaling RL training has become a central technique for
implementing such reasoning models. We systematically experiment with and
document the effects of various factors influencing RL training, conducting
experiments on both base models and fine-tuned models. Specifically, we
demonstrate that our RL training approach consistently improves the Qwen2.5-32B
base models, enhancing both response length and test accuracy. Furthermore, we
show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already
achieved a high performance level, it can be further refined through RL
training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we
also explore the use of tool manipulation, finding that it significantly boosts
the reasoning performance of large reasoning models. This approach achieves a
remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its
effectiveness in enhancing model capabilities. We release our resources at the
STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary