ChatPaper.aiChatPaper

Nemotron-Cascade: Масштабирование каскадного обучения с подкреплением для моделей общего назначения с логическим выводом

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

December 15, 2025
Авторы: Boxin Wang, Chankyu Lee, Nayeon Lee, Sheng-Chieh Lin, Wenliang Dai, Yang Chen, Yangyi Chen, Zhuolin Yang, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI

Аннотация

Создание моделей общего назначения для логических рассуждений с помощью обучения с подкреплением (RL) сопряжено со значительной гетерогенностью между доменами, включая большой разброс в длине ответов на этапе вывода и задержке верификации. Такая изменчивость усложняет инфраструктуру RL, замедляет обучение и создает трудности в выборе учебного плана обучения (например, расширения длины ответа) и гиперпараметров. В данной работе мы предлагаем каскадное посемейное обучение с подкреплением (Cascade RL) для разработки моделей логических рассуждений общего назначения, Nemotron-Cascade, способных работать как в режиме инструкций, так и в режиме глубокого размышления. В отличие от традиционных подходов, смешивающих гетерогенные промпты из разных доменов, Cascade RL организует последовательное, посемейное RL, снижая инженерную сложность и обеспечивая передовую производительность на широком спектре бенчмарков. Примечательно, что RLHF для согласования, используемый в качестве предварительного шага, значительно повышает способность модели к рассуждению, выходя далеко за рамки простой оптимизации предпочтений, а последующие этапы посемейного RLVR редко ухудшают производительность на бенчмарках, достигнутую в предыдущих доменах, и могут даже улучшить ее (см. иллюстрацию на Рисунке 1). Наша 14-миллиардная модель после RL превосходит своего учителя SFT, DeepSeek-R1-0528, на LiveCodeBench v5/v6/Pro и демонстрирует результат серебряного медалиста на Международной олимпиаде по информатике (IOI) 2025 года. Мы открыто делимся нашими рецептами обучения и данных.
English
Building general-purpose reasoning models with reinforcement learning (RL) entails substantial cross-domain heterogeneity, including large variation in inference-time response lengths and verification latency. Such variability complicates the RL infrastructure, slows training, and makes training curriculum (e.g., response length extension) and hyperparameter selection challenging. In this work, we propose cascaded domain-wise reinforcement learning (Cascade RL) to develop general-purpose reasoning models, Nemotron-Cascade, capable of operating in both instruct and deep thinking modes. Departing from conventional approaches that blend heterogeneous prompts from different domains, Cascade RL orchestrates sequential, domain-wise RL, reducing engineering complexity and delivering state-of-the-art performance across a wide range of benchmarks. Notably, RLHF for alignment, when used as a pre-step, boosts the model's reasoning ability far beyond mere preference optimization, and subsequent domain-wise RLVR stages rarely degrade the benchmark performance attained in earlier domains and may even improve it (see an illustration in Figure 1). Our 14B model, after RL, outperforms its SFT teacher, DeepSeek-R1-0528, on LiveCodeBench v5/v6/Pro and achieves silver-medal performance in the 2025 International Olympiad in Informatics (IOI). We transparently share our training and data recipes.
PDF161December 18, 2025