JustRL: シンプルなRLレシピによる15億パラメータLLMのスケーリング
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
December 18, 2025
著者: Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
cs.AI
要旨
大規模言語モデルにおける強化学習の最近の進歩は、複雑性の増大という方向に収束しつつある:多段階トレーニングパイプライン、動的ハイパーパラメータスケジュール、カリキュラム学習戦略などである。これは根本的な疑問を提起する:この複雑さは本当に必要なのか?我々はJustRLを提案する。これは固定ハイパーパラメータを用いた単段階トレーニングという最小限のアプローチであり、2つの15Bパラメータ推論モデルにおいて(9つの数学ベンチマークで平均精度54.9%および64.3%を達成)、洗練された手法よりも計算量を2分の1に抑えつつ、最先端の性能を実現する。同じハイパーパラメータがチューニングなしで両モデル間で転移し、トレーニングは4,000ステップ以上にわたり、通常は介入を促す崩壊やプラトーを伴わない滑らかで単調な改善を示す。決定的に、アブレーション研究により、明示的な長さペナルティや頑健な検証器といった「標準的な工夫」を追加することが、探索の崩壊を引き起こし性能を劣化させる可能性があることが明らかになった。これらの結果は、分野が、安定したスケールアップされたベースラインでは消失する問題を解決するために複雑性を追加している可能性を示唆する。我々はモデルとコードを公開し、コミュニティに向けた単純で検証済みのベースラインを確立する。
English
Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: Is this complexity necessary? We present JustRL, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2times less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.