JustRL: Escalando um LLM de 1,5B com uma Receita Simples de RL

Resumo

Os recentes avanços no aprendizado por reforço para modelos de linguagem de grande porte têm convergido para uma complexidade crescente: pipelines de treinamento em múltiplas etapas, cronogramas dinâmicos de hiperparâmetros e estratégias de aprendizado curricular. Isso levanta uma questão fundamental: essa complexidade é necessária? Apresentamos o JustRL, uma abordagem mínima que utiliza treinamento em estágio único com hiperparâmetros fixos, alcançando desempenho de ponta em dois modelos de raciocínio de 1,5B (54,9% e 64,3% de precisão média em nove benchmarks matemáticos) enquanto usa 2 vezes menos computação do que abordagens sofisticadas. Os mesmos hiperparâmetros transferem-se entre ambos os modelos sem ajuste, e o treinamento exibe melhoria suave e monotônica ao longo de mais de 4.000 etapas, sem os colapsos ou platôs que normalmente motivam intervenções. Criticalmente, as ablações revelam que adicionar "truques padrão", como penalidades explícitas de comprimento e verificadores robustos, pode degradar o desempenho ao colapsar a exploração. Esses resultados sugerem que a área pode estar adicionando complexidade para resolver problemas que desaparecem com uma linha de base estável e ampliada. Disponibilizamos nossos modelos e código para estabelecer uma linha de base simples e validada para a comunidade.

English

Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: Is this complexity necessary? We present JustRL, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2times less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.

JustRL: Escalando um LLM de 1,5B com uma Receita Simples de RL

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Resumo

Support