Een Empirische Studie over het Oproepen en Verbeteren van R1-achtige Redeneermodellen
An Empirical Study on Eliciting and Improving R1-like Reasoning Models
March 6, 2025
Auteurs: Zhipeng Chen, Yingqian Min, Beichen Zhang, Jie Chen, Jinhao Jiang, Daixuan Cheng, Wayne Xin Zhao, Zheng Liu, Xu Miao, Yang Lu, Lei Fang, Zhongyuan Wang, Ji-Rong Wen
cs.AI
Samenvatting
In dit rapport presenteren we het derde technische verslag over de ontwikkeling van langzaam-denken modellen als onderdeel van het STILL-project. Naarmate het technische pad duidelijker wordt, is het opschalen van RL-training een centrale techniek geworden voor het implementeren van dergelijke redeneermodellen. We experimenteren systematisch met en documenteren de effecten van verschillende factoren die RL-training beïnvloeden, waarbij we experimenten uitvoeren op zowel basismodellen als fijn afgestemde modellen. Specifiek tonen we aan dat onze RL-trainingsaanpak de Qwen2.5-32B basismodellen consistent verbetert, zowel in responslengte als in testnauwkeurigheid. Bovendien laten we zien dat zelfs wanneer een model zoals DeepSeek-R1-Distill-Qwen-1.5B al een hoog prestatieniveau heeft bereikt, het verder kan worden verfijnd door RL-training, wat resulteert in een nauwkeurigheid van 39,33% op AIME 2024. Naast RL-training onderzoeken we ook het gebruik van toolmanipulatie, waarbij we vaststellen dat dit de redeneerprestaties van grote redeneermodellen aanzienlijk verbetert. Deze aanpak bereikt een opmerkelijke nauwkeurigheid van 86,67% met een hebberige zoekstrategie op AIME 2024, wat de effectiviteit ervan in het verbeteren van modelcapaciteiten onderstreept. We maken onze bronnen beschikbaar op de STILL-projectwebsite: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In this report, we present the third technical report on the development of
slow-thinking models as part of the STILL project. As the technical pathway
becomes clearer, scaling RL training has become a central technique for
implementing such reasoning models. We systematically experiment with and
document the effects of various factors influencing RL training, conducting
experiments on both base models and fine-tuned models. Specifically, we
demonstrate that our RL training approach consistently improves the Qwen2.5-32B
base models, enhancing both response length and test accuracy. Furthermore, we
show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already
achieved a high performance level, it can be further refined through RL
training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we
also explore the use of tool manipulation, finding that it significantly boosts
the reasoning performance of large reasoning models. This approach achieves a
remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its
effectiveness in enhancing model capabilities. We release our resources at the
STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary