ChatPaper.aiChatPaper

Nemotron-Cascade: 범용 추론 모델을 위한 계단형 강화 학습의 확장

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

December 15, 2025
저자: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI

초록

강화 학습(RL)을 통한 범용 추론 모델 구축은 추론 시 응답 길이와 검증 지연 시간의 큰 변동을 포함하여 상당한 영역 간 이질성을 수반합니다. 이러한 변동성은 RL 인프라를 복잡하게 만들고 훈련 속도를 저하시키며, 훈련 커리큘럼(예: 응답 길이 확장)과 하이퍼파라미터 선택을 어렵게 합니다. 본 연구에서는 지시 및 심층 사고 모드 모두에서 작동 가능한 범용 추론 모델 Nemotron-Cascade를 개발하기 위해 계단식 영역별 강화 학습(Cascade RL)을 제안합니다. 서로 다른 영역의 이질적인 프롬프트를 혼합하는 기존 접근법과 달리, Cascade RL은 순차적이고 영역별 RL을 조정하여 엔지니어링 복잡성을 줄이고 다양한 벤치마크에서 최첨단 성능을 제공합니다. 특히, 정렬을 위한 RLHF는 선행 단계로 사용될 때 모델의 추론 능력을 단순한 선호도 최적화를 훨씬 넘어서 향상시키며, 이후의 영역별 RLVR 단계는 이전 영역에서 달성한 벤치마크 성능을 거의 저하시키지 않으며 오히려 개선할 수도 있습니다(그림 1 참조). RL을 거친 우리의 14B 모델은 LiveCodeBench v5/v6/Pro에서 SFT 교사 모델인 DeepSeek-R1-0528을 능가하며 2025년 국제 정보 올림피아드(IOI)에서 은메달 수준의 성능을 달성했습니다. 우리는 훈련 및 데이터 레시피를 투명하게 공유합니다.
English
Building general-purpose reasoning models with reinforcement learning (RL) entails substantial cross-domain heterogeneity, including large variation in inference-time response lengths and verification latency. Such variability complicates the RL infrastructure, slows training, and makes training curriculum (e.g., response length extension) and hyperparameter selection challenging. In this work, we propose cascaded domain-wise reinforcement learning (Cascade RL) to develop general-purpose reasoning models, Nemotron-Cascade, capable of operating in both instruct and deep thinking modes. Departing from conventional approaches that blend heterogeneous prompts from different domains, Cascade RL orchestrates sequential, domain-wise RL, reducing engineering complexity and delivering state-of-the-art performance across a wide range of benchmarks. Notably, RLHF for alignment, when used as a pre-step, boosts the model's reasoning ability far beyond mere preference optimization, and subsequent domain-wise RLVR stages rarely degrade the benchmark performance attained in earlier domains and may even improve it (see an illustration in Figure 1). Our 14B model, after RL, outperforms its SFT teacher, DeepSeek-R1-0528, on LiveCodeBench v5/v6/Pro and achieves silver-medal performance in the 2025 International Olympiad in Informatics (IOI). We transparently share our training and data recipes.
PDF341February 7, 2026