ChatPaper.aiChatPaper

Nemotron-Cascade: Scalabilità dell'Apprendimento per Rinforzo a Cascata per Modelli di Ragionamento Generici

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

December 15, 2025
Autori: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI

Abstract

La costruzione di modelli di ragionamento a scopo generale con l'apprendimento per rinforzo (RL) comporta una sostanziale eterogeneità cross-dominio, che include una grande variazione nelle lunghezze delle risposte al momento dell'inferenza e nella latenza di verifica. Tale variabilità complica l'infrastruttura RL, rallenta l'addestramento e rende impegnativa la definizione del curriculum di apprendimento (ad esempio, l'estensione della lunghezza della risposta) e la selezione degli iperparametri. In questo lavoro, proponiamo l'apprendimento per rinforzo sequenziale per dominio (Cascade RL) per sviluppare modelli di ragionamento a scopo generale, Nemotron-Cascade, in grado di operare sia in modalità "instruct" che di "deep thinking". Allontanandosi dagli approcci convenzionali che mescolano prompt eterogenei da domini diversi, il Cascade RL orchestra un RL sequenziale e per dominio, riducendo la complessità ingegneristica e fornendo prestazioni all'avanguardia su un'ampia gamma di benchmark. È degno di nota che l'RLHF per l'allineamento, quando utilizzato come passo preliminare, potenzia l'abilità di ragionamento del modello ben al di là della mera ottimizzazione delle preferenze; le successive fasi di RLVR per dominio raramente degradano le prestazioni sui benchmark ottenute nei domini precedenti e possono persino migliorarle (vedi un'illustrazione nella Figura 1). Il nostro modello da 14B, dopo l'RL, supera il suo insegnante SFT, DeepSeek-R1-0528, su LiveCodeBench v5/v6/Pro e raggiunge una performance di livello medaglia d'argento alle Olimpiadi Internazionali di Informatica (IOI) del 2025. Condividiamo in modo trasparente le nostre ricette per l'addestramento e i dati.
English
Building general-purpose reasoning models with reinforcement learning (RL) entails substantial cross-domain heterogeneity, including large variation in inference-time response lengths and verification latency. Such variability complicates the RL infrastructure, slows training, and makes training curriculum (e.g., response length extension) and hyperparameter selection challenging. In this work, we propose cascaded domain-wise reinforcement learning (Cascade RL) to develop general-purpose reasoning models, Nemotron-Cascade, capable of operating in both instruct and deep thinking modes. Departing from conventional approaches that blend heterogeneous prompts from different domains, Cascade RL orchestrates sequential, domain-wise RL, reducing engineering complexity and delivering state-of-the-art performance across a wide range of benchmarks. Notably, RLHF for alignment, when used as a pre-step, boosts the model's reasoning ability far beyond mere preference optimization, and subsequent domain-wise RLVR stages rarely degrade the benchmark performance attained in earlier domains and may even improve it (see an illustration in Figure 1). Our 14B model, after RL, outperforms its SFT teacher, DeepSeek-R1-0528, on LiveCodeBench v5/v6/Pro and achieves silver-medal performance in the 2025 International Olympiad in Informatics (IOI). We transparently share our training and data recipes.
PDF161December 18, 2025