R1様の推論モデルを誘発し改善するための実証的研究
An Empirical Study on Eliciting and Improving R1-like Reasoning Models
March 6, 2025
著者: Zhipeng Chen, Yingqian Min, Beichen Zhang, Jie Chen, Jinhao Jiang, Daixuan Cheng, Wayne Xin Zhao, Zheng Liu, Xu Miao, Yang Lu, Lei Fang, Zhongyuan Wang, Ji-Rong Wen
cs.AI
要旨
本報告書では、STILLプロジェクトの一環として開発中のslow-thinkingモデルに関する第3回技術報告を紹介します。技術的な道筋が明確になるにつれ、RL(強化学習)トレーニングのスケーリングが、このような推論モデルを実装するための中心的な技術となっています。我々は、RLトレーニングに影響を与える様々な要因を体系的に実験し、その効果を記録しました。具体的には、ベースモデルとファインチューニングされたモデルの両方で実験を行いました。特に、我々のRLトレーニングアプローチがQwen2.5-32Bベースモデルを一貫して改善し、応答の長さとテスト精度の両方を向上させることを実証しました。さらに、DeepSeek-R1-Distill-Qwen-1.5Bのようなモデルがすでに高い性能レベルを達成している場合でも、RLトレーニングを通じてさらに洗練され、AIME 2024で39.33%の精度に到達できることを示しました。RLトレーニングに加えて、ツール操作の使用も探求し、大規模な推論モデルの推論性能を大幅に向上させることがわかりました。このアプローチは、AIME 2024で貪欲探索を用いて86.67%という顕著な精度を達成し、モデルの能力を強化する上での有効性を強調しています。我々のリソースはSTILLプロジェクトのウェブサイトで公開しています: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs。
English
In this report, we present the third technical report on the development of
slow-thinking models as part of the STILL project. As the technical pathway
becomes clearer, scaling RL training has become a central technique for
implementing such reasoning models. We systematically experiment with and
document the effects of various factors influencing RL training, conducting
experiments on both base models and fine-tuned models. Specifically, we
demonstrate that our RL training approach consistently improves the Qwen2.5-32B
base models, enhancing both response length and test accuracy. Furthermore, we
show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already
achieved a high performance level, it can be further refined through RL
training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we
also explore the use of tool manipulation, finding that it significantly boosts
the reasoning performance of large reasoning models. This approach achieves a
remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its
effectiveness in enhancing model capabilities. We release our resources at the
STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary