ChatPaper.aiChatPaper

JustRL: Scalare un LLM da 1,5 miliardi di parametri con una semplice ricetta RL

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

December 18, 2025
Autori: Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
cs.AI

Abstract

I recenti progressi nell'apprendimento per rinforzo per i grandi modelli linguistici hanno visto una convergenza verso una crescente complessità: pipeline di addestramento multi-stadio, schedulazioni dinamiche degli iperparametri e strategie di curriculum learning. Ciò solleva una questione fondamentale: questa complessità è necessaria? Presentiamo JustRL, un approccio minimale che utilizza un addestramento a stadio singolo con iperparametri fissi, raggiungendo prestazioni allo stato dell'arte su due modelli di ragionamento da 1.5B miliardi di parametri (54.9% e 64.3% di accuratezza media su nove benchmark matematici) utilizzando un calcolo 2 volte inferiore rispetto ad approcci sofisticati. Gli stessi iperparametri si trasferiscono tra i due modelli senza necessità di sintonizzazione, e l'addestramento mostra un miglioramento regolare e monotono per oltre 4.000 passi, senza i collassi o gli appiattimenti che tipicamente motivano interventi. In modo cruciale, le ablazioni rivelano che l'aggiunta di "trucchi standard" come penalità esplicite sulla lunghezza e verificatori robusti può degradare le prestazioni collassando l'esplorazione. Questi risultati suggeriscono che il campo potrebbe star aggiungendo complessità per risolvere problemi che scompaiono con una baseline stabile e su larga scala. Rilasciamo i nostri modelli e il codice per stabilire una baseline semplice e validata per la comunità.
English
Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: Is this complexity necessary? We present JustRL, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2times less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.
PDF173December 21, 2025