Nemotron-Cascade 2: Pós-Treinamento de LLMs com RL em Cascata e Destilação On-Policy Multidomínio

Resumo

Apresentamos o Nemotron-Cascade 2, um modelo aberto de 30B MoE com 3B de parâmetros ativados que oferece capacidades de raciocínio de classe mundial e fortes capacidades agentivas. Apesar do seu tamanho compacto, o seu desempenho em raciocínio matemático e de codificação aproxima-se ao dos modelos abertos de fronteira. É o segundo LLM de pesos abertos, após o DeepSeekV3.2-Speciale-671B-A37B, a alcançar um desempenho de nível Medalha de Ouro na Olimpíada Internacional de Matemática (IMO) de 2025, na Olimpíada Internacional de Informática (IOI) e nas Finais Mundiais da ICPC, demonstrando uma densidade de inteligência notavelmente alta com 20 vezes menos parâmetros. Em contraste com o Nemotron-Cascade 1, os principais avanços técnicos são os seguintes. Após o SFT num conjunto de dados meticulosamente curado, expandimos substancialmente o Cascade RL para cobrir um espectro muito mais amplo de domínios de raciocínio e agentivos. Além disso, introduzimos uma destilação *on-policy* multidisciplinar a partir dos modelos de professor intermediários mais fortes para cada domínio ao longo do processo Cascade RL, permitindo-nos recuperar eficientemente regressões em benchmarks e sustentar ganhos sólidos de desempenho ao longo do caminho. Disponibilizamos a coleção do *checkpoint* do modelo e dos dados de treinamento.

English

We introduce Nemotron-Cascade 2, an open 30B MoE model with 3B activated parameters that delivers best-in-class reasoning and strong agentic capabilities. Despite its compact size, its mathematical and coding reasoning performance approaches that of frontier open models. It is the second open-weight LLM, after DeepSeekV3.2-Speciale-671B-A37B, to achieve Gold Medal-level performance in the 2025 International Mathematical Olympiad (IMO), the International Olympiad in Informatics (IOI), and the ICPC World Finals, demonstrating remarkably high intelligence density with 20x fewer parameters. In contrast to Nemotron-Cascade 1, the key technical advancements are as follows. After SFT on a meticulously curated dataset, we substantially expand Cascade RL to cover a much broader spectrum of reasoning and agentic domains. Furthermore, we introduce multi-domain on-policy distillation from the strongest intermediate teacher models for each domain throughout the Cascade RL process, allowing us to efficiently recover benchmark regressions and sustain strong performance gains along the way. We release the collection of model checkpoint and training data.

Nemotron-Cascade 2: Pós-Treinamento de LLMs com RL em Cascata e Destilação On-Policy Multidomínio

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Resumo

Support