JustRL : Mettre à l'échelle un LLM de 1,5B avec une recette d'apprentissage par renforcement simple
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
December 18, 2025
papers.authors: Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
cs.AI
papers.abstract
Les récents progrès en apprentissage par renforcement pour les grands modèles de langage convergent vers une complexité croissante : pipelines d'entraînement multi-étapes, planifications dynamiques des hyperparamètres et stratégies d'apprentissage curriculaire. Cela soulève une question fondamentale : cette complexité est-elle nécessaire ? Nous présentons JustRL, une approche minimale utilisant un entraînement mono-étape avec des hyperparamètres fixes, qui atteint des performances de pointe sur deux modèles de raisonnement de 1,5 milliard de paramètres (54,9 % et 64,3 % de précision moyenne sur neuf benchmarks mathématiques) tout en utilisant deux fois moins de calcul que les approches sophistiquées. Les mêmes hyperparamètres se transfèrent entre les deux modèles sans réglage, et l'entraînement présente une amélioration régulière et monotone sur plus de 4 000 étapes, sans les effondrements ou plateaux qui motivent habituellement les interventions. Fait crucial, les études d'ablation révèlent que l'ajout de « techniques standard » comme les pénalités de longueur explicites et les vérificateurs robustes peut dégrader les performances en réduisant l'exploration. Ces résultats suggèrent que le domaine pourrait ajouter de la complexité pour résoudre des problèmes qui disparaissent avec une base de référence stable et à grande échelle. Nous publions nos modèles et notre code pour établir une base de référence simple et validée pour la communauté.
English
Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: Is this complexity necessary? We present JustRL, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2times less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.