Llama-Nemotron: Efficiënte Redeneermodellen

Samenvatting

We introduceren de Llama-Nemotron-serie van modellen, een open familie van heterogene redeneermodellen die uitstekende redeneervaardigheden, inferentie-efficiëntie en een open licentie voor zakelijk gebruik bieden. De familie is beschikbaar in drie formaten -- Nano (8B), Super (49B) en Ultra (253B) -- en presteert competitief met state-of-the-art redeneermodellen zoals DeepSeek-R1, terwijl het superieure inferentie-doorvoer en geheugenefficiëntie biedt. In dit rapport bespreken we het trainingsproces voor deze modellen, waarbij gebruik wordt gemaakt van neurale architectuurzoektochten vanuit Llama 3-modellen voor versnelde inferentie, kennisdistillatie en voortgezette pretraining, gevolgd door een redeneringsgerichte post-trainingsfase die uit twee hoofdonderdelen bestaat: supervised fine-tuning en grootschalige reinforcement learning. Llama-Nemotron-modellen zijn de eerste open-source modellen die een dynamische redeneringsschakelaar ondersteunen, waardoor gebruikers tijdens de inferentie kunnen schakelen tussen standaard chat- en redeneermodi. Om open onderzoek verder te ondersteunen en modelontwikkeling te vergemakkelijken, bieden we de volgende bronnen: 1. We geven de Llama-Nemotron redeneermodellen -- LN-Nano, LN-Super en LN-Ultra -- vrij onder de commercieel toestemming gevende NVIDIA Open Model License Agreement. 2. We geven de complete post-trainingsdataset vrij: Llama-Nemotron-Post-Training-Dataset. 3. We geven ook onze trainingscodebases vrij: NeMo, NeMo-Aligner en Megatron-LM.

English

We introduce the Llama-Nemotron series of models, an open family of heterogeneous reasoning models that deliver exceptional reasoning capabilities, inference efficiency, and an open license for enterprise use. The family comes in three sizes -- Nano (8B), Super (49B), and Ultra (253B) -- and performs competitively with state-of-the-art reasoning models such as DeepSeek-R1 while offering superior inference throughput and memory efficiency. In this report, we discuss the training procedure for these models, which entails using neural architecture search from Llama 3 models for accelerated inference, knowledge distillation, and continued pretraining, followed by a reasoning-focused post-training stage consisting of two main parts: supervised fine-tuning and large scale reinforcement learning. Llama-Nemotron models are the first open-source models to support a dynamic reasoning toggle, allowing users to switch between standard chat and reasoning modes during inference. To further support open research and facilitate model development, we provide the following resources: 1. We release the Llama-Nemotron reasoning models -- LN-Nano, LN-Super, and LN-Ultra -- under the commercially permissive NVIDIA Open Model License Agreement. 2. We release the complete post-training dataset: Llama-Nemotron-Post-Training-Dataset. 3. We also release our training codebases: NeMo, NeMo-Aligner, and Megatron-LM.

Llama-Nemotron: Efficiënte Redeneermodellen

Llama-Nemotron: Efficient Reasoning Models

Samenvatting

Support