ChatPaper.aiChatPaper

Nemotron-Cascade: Skalierung von kaskadiertem Reinforcement Learning für allgemeine Reasoning-Modelle

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

December 15, 2025
papers.authors: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI

papers.abstract

Die Entwicklung allgemeiner Reasoning-Modelle mit Reinforcement Learning (RL) ist mit erheblicher domänenübergreifender Heterogenität verbunden, einschließlich großer Schwankungen bei den Antwortlängen zur Inferenzzeit und der Verifikationslatenz. Diese Variabilität erschwert die RL-Infrastruktur, verlangsamt das Training und macht die Gestaltung des Trainingscurriculums (z. B. die Erweiterung der Antwortlänge) sowie die Hyperparameterauswahl anspruchsvoll. In dieser Arbeit schlagen wir kaskadiertes Reinforcement Learning nach Domänen (Cascade RL) vor, um allgemeine Reasoning-Modelle namens Nemotron-Cascade zu entwickeln, die sowohl im Instruktions- als auch im Deep-Thinking-Modus operieren können. Im Gegensatz zu konventionellen Ansätzen, die heterogene Prompts aus verschiedenen Domänen vermischen, orchestriert Cascade RL sequenzielles, domänenweises RL, reduziert die technische Komplexität und erzielt state-of-the-art Leistung über eine breite Palette von Benchmarks hinweg. Bemerkenswerterweise steigert RLHF für Alignment, wenn es als Vorstufe eingesetzt wird, die Reasoning-Fähigkeit des Modells weit über eine bloße Präferenzoptimierung hinaus, und nachfolgende domänenweise RLVR-Stufen verschlechtern die in früheren Domänen erreichte Benchmark-Leistung selten und können sie sogar verbessern (siehe eine Veranschaulichung in Abbildung 1). Unser 14B-Modell übertrifft nach dem RL-Training seinen SFT-Lehrer, DeepSeek-R1-0528, auf LiveCodeBench v5/v6/Pro und erreicht eine Silbermedaillen-Leistung bei der Internationalen Informatik-Olympiade (IOI) 2025. Wir teilen unsere Trainings- und Datenrezepte transparent.
English
Building general-purpose reasoning models with reinforcement learning (RL) entails substantial cross-domain heterogeneity, including large variation in inference-time response lengths and verification latency. Such variability complicates the RL infrastructure, slows training, and makes training curriculum (e.g., response length extension) and hyperparameter selection challenging. In this work, we propose cascaded domain-wise reinforcement learning (Cascade RL) to develop general-purpose reasoning models, Nemotron-Cascade, capable of operating in both instruct and deep thinking modes. Departing from conventional approaches that blend heterogeneous prompts from different domains, Cascade RL orchestrates sequential, domain-wise RL, reducing engineering complexity and delivering state-of-the-art performance across a wide range of benchmarks. Notably, RLHF for alignment, when used as a pre-step, boosts the model's reasoning ability far beyond mere preference optimization, and subsequent domain-wise RLVR stages rarely degrade the benchmark performance attained in earlier domains and may even improve it (see an illustration in Figure 1). Our 14B model, after RL, outperforms its SFT teacher, DeepSeek-R1-0528, on LiveCodeBench v5/v6/Pro and achieves silver-medal performance in the 2025 International Olympiad in Informatics (IOI). We transparently share our training and data recipes.
PDF341February 7, 2026