JustRL: Het schalen van een 1,5B LLM met een eenvoudig RL-recept
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
December 18, 2025
Auteurs: Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
cs.AI
Samenvatting
Recente vooruitgang in reinforcement learning voor grote taalmodellen is geconvergeerd naar toenemende complexiteit: meerfasige trainingspijplijnen, dynamische hyperparameter-schema's en curriculumleerstrategieën. Dit roept een fundamentele vraag op: Is deze complexiteit noodzakelijk? Wij presenteren JustRL, een minimale aanpak die gebruikmaakt van training in één fase met vaste hyperparameters, en die state-of-the-art prestaties bereikt op twee 1,5B-redeneermodellen (54,9% en 64,3% gemiddelde nauwkeurigheid over negen wiskundige benchmarks) terwijl er 2x minder rekenkracht wordt gebruikt dan bij geavanceerde aanpakken. Dezelfde hyperparameters zijn overdraagbaar tussen beide modellen zonder afstemming, en de training vertoont een soepele, monotone verbetering over meer dan 4.000 stappen zonder de instortingen of plateaus die doorgaans interventies motiveren. Cruciaal is dat ablatiestudies aantonen dat het toevoegen van "standaardtrucs" zoals expliciete lengtestraffen en robuuste verifiers de prestaties kunnen verslechteren door verkenning in te perken. Deze resultaten suggereren dat het vakgebied mogelijk complexiteit toevoegt om problemen op te lossen die verdwijnen met een stabiele, opgeschaalde basislijn. Wij geven onze modellen en code vrij om een eenvoudige, gevalideerde basislijn voor de gemeenschap te vestigen.
English
Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: Is this complexity necessary? We present JustRL, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2times less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.