JustRL: Escalado de un LLM de 1.5B con una Receta Sencilla de Aprendizaje por Refuerzo
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
December 18, 2025
Autores: Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
cs.AI
Resumen
Los recientes avances en el aprendizaje por refuerzo para modelos de lenguaje a gran escala han convergido hacia una creciente complejidad: pipelines de entrenamiento multietapa, programaciones dinámicas de hiperparámetros y estrategias de aprendizaje curricular. Esto plantea una pregunta fundamental: ¿Es necesaria esta complejidad? Presentamos JustRL, un enfoque minimalista que utiliza un entrenamiento monofásico con hiperparámetros fijos y logra un rendimiento de vanguardia en dos modelos de razonamiento de 1.500 millones de parámetros (54,9 % y 64,3 % de precisión promedio en nueve benchmarks matemáticos), utilizando además el doble menos de capacidad de cálculo que los enfoques sofisticados. Los mismos hiperparámetros se transfieren entre ambos modelos sin ajustes, y el entrenamiento exhibe una mejora suave y monótona durante más de 4.000 pasos, sin los colapsos o estancamientos que normalmente motivan intervenciones. Críticamente, las ablaciones revelan que añadir "trucos estándar" como penalizaciones explícitas por longitud y verificadores robustos puede degradar el rendimiento al colapsar la exploración. Estos resultados sugieren que el campo podría estar añadiendo complejidad para resolver problemas que desaparecen con una línea base estable y escalada. Publicamos nuestros modelos y código para establecer una línea base simple y validada para la comunidad.
English
Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: Is this complexity necessary? We present JustRL, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2times less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.