Nemotron-Cascade: Escalando el Aprendizaje por Refuerzo en Cascada para Modelos de Razonamiento de Propósito General
Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models
December 15, 2025
Autores: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Resumen
La construcción de modelos de razonamiento de propósito general con aprendizaje por refuerzo (RL, por sus siglas en inglés) conlleva una heterogeneidad sustancial entre dominios, que incluye una gran variación en las longitudes de respuesta en el momento de la inferencia y en la latencia de verificación. Dicha variabilidad complica la infraestructura de RL, ralentiza el entrenamiento y dificulta la definición del plan de entrenamiento (por ejemplo, la extensión de la longitud de respuesta) y la selección de hiperparámetros. En este trabajo, proponemos el aprendizaje por refuerzo en cascada por dominios (Cascade RL) para desarrollar modelos de razonamiento de propósito general, Nemotron-Cascade, capaces de operar tanto en modo de instrucción como en modo de pensamiento profundo. Alejándonos de los enfoques convencionales que mezclan instrucciones heterogéneas de diferentes dominios, Cascade RL orquesta un RL secuencial por dominios, reduciendo la complejidad de ingeniería y ofreciendo un rendimiento de vanguardia en una amplia gama de benchmarks. Cabe destacar que el RLHF para la alineación, cuando se utiliza como paso previo, potencia la capacidad de razonamiento del modelo mucho más allá de una mera optimización de preferencias, y las etapas posteriores de RLVR por dominios rara vez degradan el rendimiento en los benchmarks alcanzado en dominios anteriores e incluso pueden mejorarlo (véase una ilustración en la Figura 1). Nuestro modelo de 14B, tras el RL, supera a su profesor SFT, DeepSeek-R1-0528, en LiveCodeBench v5/v6/Pro y logra un rendimiento de medalla de plata en la Olimpiada Internacional de Informática (IOI) de 2025. Compartimos de forma transparente nuestras recetas de entrenamiento y datos.
English
Building general-purpose reasoning models with reinforcement learning (RL) entails substantial cross-domain heterogeneity, including large variation in inference-time response lengths and verification latency. Such variability complicates the RL infrastructure, slows training, and makes training curriculum (e.g., response length extension) and hyperparameter selection challenging. In this work, we propose cascaded domain-wise reinforcement learning (Cascade RL) to develop general-purpose reasoning models, Nemotron-Cascade, capable of operating in both instruct and deep thinking modes. Departing from conventional approaches that blend heterogeneous prompts from different domains, Cascade RL orchestrates sequential, domain-wise RL, reducing engineering complexity and delivering state-of-the-art performance across a wide range of benchmarks. Notably, RLHF for alignment, when used as a pre-step, boosts the model's reasoning ability far beyond mere preference optimization, and subsequent domain-wise RLVR stages rarely degrade the benchmark performance attained in earlier domains and may even improve it (see an illustration in Figure 1). Our 14B model, after RL, outperforms its SFT teacher, DeepSeek-R1-0528, on LiveCodeBench v5/v6/Pro and achieves silver-medal performance in the 2025 International Olympiad in Informatics (IOI). We transparently share our training and data recipes.