ChatPaper.aiChatPaper

JustRL: 단순한 RL 레시피로 1.5B LLM 확장하기

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

December 18, 2025
저자: Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
cs.AI

초록

대규모 언어 모델을 위한 강화 학습의 최근 발전은 다단계 학습 파이프라인, 동적 하이퍼파라미터 스케줄, 커리큘럼 학습 전략 등 점점 복잡해지는 방향으로 수렴되고 있습니다. 이는 근본적인 질문을 제기합니다: 이러한 복잡성이 정말 필요한 것일까요? 우리는 단일 단계 학습과 고정 하이퍼파라미터를 사용하는 최소한의 접근법인 JustRL을 제안하며, 이는 정교한 기법들보다 2배 적은 계산량을 사용하면서 두 개의 15B 추론 모델에서 9개 수학 벤치마크 평균 정확도(각각 54.9%, 64.3%)로 최첨단 성능을 달성합니다. 동일한 하이퍼파라미터는 조정 없이 두 모델 간에 전이 가능하며, 학습은 4,000단계 이상에 걸쳐 일반적으로 개입을 유발하는 붕괴나 정체 현상 없이 부드럽고 단조로운 성능 향상을 보입니다. 중요한 것은, 명시적 길이 패널티와 강건한 검증기 같은 "표준 기법"들을 추가하면 탐색이 붕괴되어 성능이 오히려 저하될 수 있다는 어블레이션 결과입니다. 이러한 결과는 해당 분야가 안정적이고 규모가 확장된 기준선에서는 사라지는 문제들을 해결하기 위해 불필요한 복잡성을 더하고 있을 수 있음을 시사합니다. 우리는 커뮤니티를 위해 단순하고 검증된 기준선을 확립하기 위해 모델과 코드를 공개합니다.
English
Recent advances in reinforcement learning for large language models have converged on increasing complexity: multi-stage training pipelines, dynamic hyperparameter schedules, and curriculum learning strategies. This raises a fundamental question: Is this complexity necessary? We present JustRL, a minimal approach using single-stage training with fixed hyperparameters that achieves state-of-the-art performance on two 1.5B reasoning models (54.9\% and 64.3\% average accuracy across nine mathematical benchmarks) while using 2times less compute than sophisticated approaches. The same hyperparameters transfer across both models without tuning, and training exhibits smooth, monotonic improvement over 4,000+ steps without the collapses or plateaus that typically motivate interventions. Critically, ablations reveal that adding ``standard tricks'' like explicit length penalties and robust verifiers may degrade performance by collapsing exploration. These results suggest that the field may be adding complexity to solve problems that disappear with a stable, scaled-up baseline. We release our models and code to establish a simple, validated baseline for the community.
PDF133December 20, 2025