ChatPaper.aiChatPaper

Nemotron-Cascade: Het Opschalen van Gelaagde Reinforcement Learning voor Algemene Redeneermodellen

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

December 15, 2025
Auteurs: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI

Samenvatting

Het ontwikkelen van algemene redeneermodellen met reinforcement learning (RL) brengt aanzienlijke heterogeniteit tussen domeinen met zich mee, waaronder grote variatie in responslengtes tijdens inferentie en verificatielatentie. Deze variabiliteit compliceert de RL-infrastructuur, vertraagt de training en maakt de trainingscurriculum (bijvoorbeeld responslengte-uitbreiding) en hyperparameterselectie uitdagend. In dit werk stellen we gecascadeerd domein-gewijs reinforcement learning (Cascade RL) voor om algemene redeneermodellen, Nemotron-Cascade, te ontwikkelen die zowel in instructie- als diep nadenken-modus kunnen opereren. In tegenstelling tot conventionele benaderingen die heterogene prompts uit verschillende domeinen mengen, organiseert Cascade RL sequentiële, domein-gewijze RL, wat de technische complexiteit vermindert en state-of-the-art prestaties levert op een breed scala aan benchmarks. Opmerkelijk is dat RLHF voor alignment, wanneer gebruikt als voorstap, het redeneervermogen van het model versterkt ver voorbij louter voorkeursoptimalisatie, en latere domein-gewijze RLVR-fasen zelden de benchmarkprestatie uit eerdere domeinen aantasten en deze zelfs kunnen verbeteren (zie een illustratie in Figuur 1). Ons 14B-model presteert na RL beter dan zijn SFT-leraar, DeepSeek-R1-0528, op LiveCodeBench v5/v6/Pro en behaalt zilveren-medaille prestaties in de Internationale Informatica Olympiade (IOI) van 2025. We delen onze trainings- en datarecepten transparant.
English
Building general-purpose reasoning models with reinforcement learning (RL) entails substantial cross-domain heterogeneity, including large variation in inference-time response lengths and verification latency. Such variability complicates the RL infrastructure, slows training, and makes training curriculum (e.g., response length extension) and hyperparameter selection challenging. In this work, we propose cascaded domain-wise reinforcement learning (Cascade RL) to develop general-purpose reasoning models, Nemotron-Cascade, capable of operating in both instruct and deep thinking modes. Departing from conventional approaches that blend heterogeneous prompts from different domains, Cascade RL orchestrates sequential, domain-wise RL, reducing engineering complexity and delivering state-of-the-art performance across a wide range of benchmarks. Notably, RLHF for alignment, when used as a pre-step, boosts the model's reasoning ability far beyond mere preference optimization, and subsequent domain-wise RLVR stages rarely degrade the benchmark performance attained in earlier domains and may even improve it (see an illustration in Figure 1). Our 14B model, after RL, outperforms its SFT teacher, DeepSeek-R1-0528, on LiveCodeBench v5/v6/Pro and achieves silver-medal performance in the 2025 International Olympiad in Informatics (IOI). We transparently share our training and data recipes.
PDF161December 18, 2025