NVIDIA Nemotron Nano 2 : Un modèle de raisonnement hybride Mamba-Transformer précis et efficace

Résumé

Nous présentons Nemotron-Nano-9B-v2, un modèle de langage hybride Mamba-Transformer conçu pour augmenter le débit des charges de travail de raisonnement tout en atteignant une précision de pointe par rapport aux modèles de taille similaire. Nemotron-Nano-9B-v2 s'appuie sur l'architecture Nemotron-H, dans laquelle la majorité des couches d'auto-attention de l'architecture Transformer classique sont remplacées par des couches Mamba-2, afin d'améliorer la vitesse d'inférence lors de la génération des longues traces de pensée nécessaires au raisonnement. Nous avons créé Nemotron-Nano-9B-v2 en pré-entraînant d'abord un modèle de 12 milliards de paramètres (Nemotron-Nano-12B-v2-Base) sur 20 000 milliards de tokens en utilisant une recette d'entraînement FP8. Après avoir aligné Nemotron-Nano-12B-v2-Base, nous avons employé la stratégie Minitron pour compresser et distiller le modèle dans le but de permettre l'inférence sur jusqu'à 128k tokens sur un seul GPU NVIDIA A10G (22GiB de mémoire, précision bfloat16). Par rapport aux modèles existants de taille similaire (par exemple, Qwen3-8B), nous montrons que Nemotron-Nano-9B-v2 atteint une précision équivalente ou supérieure sur les benchmarks de raisonnement tout en obtenant jusqu'à 6 fois plus de débit d'inférence dans des scénarios de raisonnement comme 8k tokens en entrée et 16k tokens en sortie. Nous publions Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base et les points de contrôle Nemotron-Nano-9B-v2-Base, ainsi que la majorité de nos ensembles de données de pré- et post-entraînement sur Hugging Face.

English

We introduce Nemotron-Nano-9B-v2, a hybrid Mamba-Transformer language model designed to increase throughput for reasoning workloads while achieving state-of-the-art accuracy compared to similarly-sized models. Nemotron-Nano-9B-v2 builds on the Nemotron-H architecture, in which the majority of the self-attention layers in the common Transformer architecture are replaced with Mamba-2 layers, to achieve improved inference speed when generating the long thinking traces needed for reasoning. We create Nemotron-Nano-9B-v2 by first pre-training a 12-billion-parameter model (Nemotron-Nano-12B-v2-Base) on 20 trillion tokens using an FP8 training recipe. After aligning Nemotron-Nano-12B-v2-Base, we employ the Minitron strategy to compress and distill the model with the goal of enabling inference on up to 128k tokens on a single NVIDIA A10G GPU (22GiB of memory, bfloat16 precision). Compared to existing similarly-sized models (e.g., Qwen3-8B), we show that Nemotron-Nano-9B-v2 achieves on-par or better accuracy on reasoning benchmarks while achieving up to 6x higher inference throughput in reasoning settings like 8k input and 16k output tokens. We are releasing Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base, and Nemotron-Nano-9B-v2-Base checkpoints along with the majority of our pre- and post-training datasets on Hugging Face.