Nemotron-Cascade : Mise à l'échelle de l'apprentissage par renforcement en cascade pour des modèles de raisonnement à usage général
Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models
December 15, 2025
papers.authors: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
papers.abstract
La construction de modèles de raisonnement généralistes par apprentissage par renforcement (RL) implique une hétérogénéité inter-domaines substantielle, incluant de grandes variations dans la longueur des réponses à l'inférence et la latence de vérification. Cette variabilité complique l'infrastructure RL, ralentit l'entraînement et rend difficile la définition du curriculum d'apprentissage (par exemple, l'extension de la longueur des réponses) et la sélection des hyperparamètres. Dans ce travail, nous proposons l'apprentissage par renforcement en cascade par domaine (Cascade RL) pour développer des modèles de raisonnement généralistes, Nemotron-Cascade, capables de fonctionner à la fois en mode instruction et en mode réflexion profonde. S'éloignant des approches conventionnelles qui mélangent des prompts hétérogènes de différents domaines, Cascade RL orchestre un RL séquentiel par domaine, réduisant la complexité technique et offrant des performances de pointe sur un large éventail de benchmarks. Notamment, le RLHF pour l'alignement, utilisé comme étape préliminaire, améliore la capacité de raisonnement du modèle bien au-delà d'une simple optimisation des préférences, et les étapes RLVR ultérieures par domaine dégradent rarement les performances sur les benchmarks obtenus dans les domaines antérieurs et peuvent même les améliorer (voir une illustration dans la Figure 1). Notre modèle de 14B, après RL, surpasse son enseignant SFT, DeepSeek-R1-0528, sur LiveCodeBench v5/v6/Pro et atteint une performance de niveau médaille d'argent aux Olympiades Internationales d'Informatique (IOI) 2025. Nous partageons de manière transparente nos recettes d'entraînement et de données.
English
Building general-purpose reasoning models with reinforcement learning (RL) entails substantial cross-domain heterogeneity, including large variation in inference-time response lengths and verification latency. Such variability complicates the RL infrastructure, slows training, and makes training curriculum (e.g., response length extension) and hyperparameter selection challenging. In this work, we propose cascaded domain-wise reinforcement learning (Cascade RL) to develop general-purpose reasoning models, Nemotron-Cascade, capable of operating in both instruct and deep thinking modes. Departing from conventional approaches that blend heterogeneous prompts from different domains, Cascade RL orchestrates sequential, domain-wise RL, reducing engineering complexity and delivering state-of-the-art performance across a wide range of benchmarks. Notably, RLHF for alignment, when used as a pre-step, boosts the model's reasoning ability far beyond mere preference optimization, and subsequent domain-wise RLVR stages rarely degrade the benchmark performance attained in earlier domains and may even improve it (see an illustration in Figure 1). Our 14B model, after RL, outperforms its SFT teacher, DeepSeek-R1-0528, on LiveCodeBench v5/v6/Pro and achieves silver-medal performance in the 2025 International Olympiad in Informatics (IOI). We transparently share our training and data recipes.