Nemotron-Cascade: Escalonamento de Aprendizado por Reforço em Cascata para Modelos de Raciocínio de Propósito Geral

Resumo

A construção de modelos de raciocínio de propósito geral com aprendizagem por reforço (RL) envolve uma heterogeneidade substancial entre domínios, incluindo grande variação nos comprimentos das respostas no momento da inferência e na latência de verificação. Essa variabilidade complica a infraestrutura de RL, retarda o treinamento e torna desafiador o currículo de treinamento (por exemplo, a extensão do comprimento da resposta) e a seleção de hiperparâmetros. Neste trabalho, propomos a aprendizagem por reforço em cascata por domínio (Cascade RL) para desenvolver modelos de raciocínio de propósito geral, o Nemotron-Cascade, capaz de operar tanto em modos de instrução quanto de pensamento profundo. Afastando-se das abordagens convencionais que misturam *prompts* heterogéneos de diferentes domínios, o Cascade RL orquestra um RL sequencial e por domínio, reduzindo a complexidade de engenharia e fornecendo desempenho de última geração numa ampla gama de *benchmarks*. Notavelmente, o RLHF para alinhamento, quando usado como uma etapa preliminar, aumenta a capacidade de raciocínio do modelo muito além da mera otimização de preferências, e as etapas subsequentes de RLVR por domínio raramente degradam o desempenho nos *benchmarks* obtido em domínios anteriores, podendo até mesmo melhorá-lo (veja uma ilustração na Figura 1). O nosso modelo de 14B, após o RL, supera o seu professor de SFT, o DeepSeek-R1-0528, no LiveCodeBench v5/v6/Pro e alcança um desempenho de medalha de prata na Olimpíada Internacional de Informática (IOI) de 2025. Partilhamos transparentemente as nossas receitas de treinamento e dados.

English

Building general-purpose reasoning models with reinforcement learning (RL) entails substantial cross-domain heterogeneity, including large variation in inference-time response lengths and verification latency. Such variability complicates the RL infrastructure, slows training, and makes training curriculum (e.g., response length extension) and hyperparameter selection challenging. In this work, we propose cascaded domain-wise reinforcement learning (Cascade RL) to develop general-purpose reasoning models, Nemotron-Cascade, capable of operating in both instruct and deep thinking modes. Departing from conventional approaches that blend heterogeneous prompts from different domains, Cascade RL orchestrates sequential, domain-wise RL, reducing engineering complexity and delivering state-of-the-art performance across a wide range of benchmarks. Notably, RLHF for alignment, when used as a pre-step, boosts the model's reasoning ability far beyond mere preference optimization, and subsequent domain-wise RLVR stages rarely degrade the benchmark performance attained in earlier domains and may even improve it (see an illustration in Figure 1). Our 14B model, after RL, outperforms its SFT teacher, DeepSeek-R1-0528, on LiveCodeBench v5/v6/Pro and achieves silver-medal performance in the 2025 International Olympiad in Informatics (IOI). We transparently share our training and data recipes.

Nemotron-Cascade: Escalonamento de Aprendizado por Reforço em Cascata para Modelos de Raciocínio de Propósito Geral

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

Resumo

Support