NVIDIA Nemotron Nano 2: Точная и эффективная гибридная модель рассуждений на основе Mamba-Transformer

Аннотация

Мы представляем Nemotron-Nano-9B-v2, гибридную языковую модель Mamba-Transformer, разработанную для повышения пропускной способности при выполнении задач, требующих рассуждений, при достижении точности на уровне современных аналогов среди моделей схожего размера. Nemotron-Nano-9B-v2 основана на архитектуре Nemotron-H, в которой большинство слоев self-attention из стандартной архитектуры Transformer заменены слоями Mamba-2, что позволяет улучшить скорость вывода при генерации длинных цепочек рассуждений. Мы создали Nemotron-Nano-9B-v2, сначала предварительно обучив модель с 12 миллиардами параметров (Nemotron-Nano-12B-v2-Base) на 20 триллионах токенов с использованием рецепта обучения FP8. После выравнивания Nemotron-Nano-12B-v2-Base мы применили стратегию Minitron для сжатия и дистилляции модели с целью обеспечения вывода на до 128 тысяч токенов на одном GPU NVIDIA A10G (22 ГБ памяти, точность bfloat16). По сравнению с существующими моделями схожего размера (например, Qwen3-8B), мы показываем, что Nemotron-Nano-9B-v2 достигает сопоставимой или лучшей точности на тестах, требующих рассуждений, при этом обеспечивая до 6-кратного увеличения пропускной способности вывода в сценариях с 8 тысячами входных и 16 тысячами выходных токенов. Мы публикуем контрольные точки Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base и Nemotron-Nano-9B-v2-Base, а также большую часть наших наборов данных для предварительного и последующего обучения на платформе Hugging Face.

English

We introduce Nemotron-Nano-9B-v2, a hybrid Mamba-Transformer language model designed to increase throughput for reasoning workloads while achieving state-of-the-art accuracy compared to similarly-sized models. Nemotron-Nano-9B-v2 builds on the Nemotron-H architecture, in which the majority of the self-attention layers in the common Transformer architecture are replaced with Mamba-2 layers, to achieve improved inference speed when generating the long thinking traces needed for reasoning. We create Nemotron-Nano-9B-v2 by first pre-training a 12-billion-parameter model (Nemotron-Nano-12B-v2-Base) on 20 trillion tokens using an FP8 training recipe. After aligning Nemotron-Nano-12B-v2-Base, we employ the Minitron strategy to compress and distill the model with the goal of enabling inference on up to 128k tokens on a single NVIDIA A10G GPU (22GiB of memory, bfloat16 precision). Compared to existing similarly-sized models (e.g., Qwen3-8B), we show that Nemotron-Nano-9B-v2 achieves on-par or better accuracy on reasoning benchmarks while achieving up to 6x higher inference throughput in reasoning settings like 8k input and 16k output tokens. We are releasing Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base, and Nemotron-Nano-9B-v2-Base checkpoints along with the majority of our pre- and post-training datasets on Hugging Face.