ChatPaper.aiChatPaper

JustRL: Масштабирование языковой модели на 1.5 млрд параметров с помощью простого рецепта обучения с подкреплением

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

December 18, 2025
Авторы: Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
cs.AI

Аннотация

Последние достижения в области обучения с подкреплением для больших языковых моделей демонстрируют тенденцию к усложнению: многоэтапные конвейеры обучения, динамические графики изменения гиперпараметров и стратегии обучения по учебному плану. Это поднимает фундаментальный вопрос: необходима ли такая сложность? Мы представляем JustRL — минималистичный подход, использующий одноэтапное обучение с фиксированными гиперпараметрами, который достигает уровня передовых результатов на двух 1,5-миллиардных моделях для решения задач (54,9% и 64,3% средней точности по девяти математическим тестам), потребляя при этом в 2 раза меньше вычислительных ресурсов, чем сложные методы. Одни и те же гиперпараметры переносятся между обеими моделями без дополнительной настройки, а обучение демонстрирует плавное, монотонное улучшение на протяжении более 4000 шагов без сбоев или плато, которые обычно требуют вмешательства. Критически важно, что ablation-исследования показывают, что добавление «стандартных приёмов», таких как явные штрафы за длину и устойчивые верификаторы, может ухудшить производительность, разрушая процесс исследования. Эти результаты позволяют предположить, что область исследований добавляет сложность для решения проблем, которые исчезают при наличии стабильного, масштабированного базового уровня. Мы публикуем наши модели и код, чтобы создать простой, проверенный базовый уровень для научного сообщества.
English
Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: Is this complexity necessary? We present JustRL, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2times less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.
PDF133December 20, 2025