JustRL: Skalierung eines 1,5-Milliarden-Parameter-LLMs mit einem einfachen RL-Rezept
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
December 18, 2025
papers.authors: Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
cs.AI
papers.abstract
Jüngste Fortschritte beim Reinforcement Learning für große Sprachmodelle konvergieren zunehmend in Richtung Komplexität: mehrstufige Trainingspipelines, dynamische Hyperparameterpläne und Curriculum-Learning-Strategien. Dies wirft eine grundlegende Frage auf: Ist diese Komplexität notwendig? Wir stellen JustRL vor, einen minimalistischen Ansatz mit einstufigem Training und festen Hyperparametern, der state-of-the-art Leistung bei zwei 1,5B-Reasoning-Modellen erzielt (54,9 % und 64,3 % durchschnittliche Genauigkeit über neun mathematische Benchmarks) und dabei 2-mal weniger Rechenleistung als ausgefeilte Ansätze benötigt. Dieselben Hyperparameter übertragen sich ohne Anpassung auf beide Modelle, und das Training zeigt über 4.000+ Schritte hinweg einen glatten, monotonen Verbesserungsverlauf ohne die Zusammenbrüche oder Plateaus, die typischerweise Interventionen motivieren. Entscheidend ist, dass Ablationstudien zeigen, dass das Hinzufügen „standardmäßiger Tricks“ wie expliziter Längenstrafen oder robuster Verifizierer die Leistung durch Kollabieren der Exploration verschlechtern kann. Diese Ergebnisse deuten darauf hin, dass das Feld möglicherweise Komplexität hinzufügt, um Probleme zu lösen, die mit einer stabilen, hochskalierten Basislinie verschwinden. Wir veröffentlichen unsere Modelle und Code, um der Community eine einfache, validierte Basislinie bereitzustellen.
English
Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: Is this complexity necessary? We present JustRL, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2times less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.