ChatPaper.aiChatPaper

Nemotron Elastic: Op Weg naar Efficiënte Veel-in-Één Redeneer-LLM's

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

November 20, 2025
Auteurs: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
cs.AI

Samenvatting

Het trainen van een familie van grote taalmodellen voor verschillende schalen en inzetdoelen is buitengewoon kostbaar, omdat voor elke grootte afzonderlijke trainingsrondes nodig zijn. Recent werk over modelcompressie via pruning en knowledge distillation heeft deze kosten verminderd; dit proces vereist echter nog steeds trainingskosten van honderden miljarden tokens per gecomprimeerd model. In dit artikel presenteren we Nemotron Elastic, een raamwerk voor het bouwen van reasoning-georiënteerde LLM's, inclusief hybride Mamba-Attention-architecturen, die meerdere geneste submodellen in één oudermodel insluiten, elk geoptimaliseerd voor verschillende inzetconfiguraties en budgetten. Elk van deze submodellen deelt gewichten met het oudermodel en kan zero-shot worden geëxtraheerd tijdens de inzet zonder aanvullende training of fine-tuning. Wij maken deze functionaliteit mogelijk via een end-to-end getrainde router, nauw gekoppeld aan een tweefasig trainingscurriculum dat specifiek is ontworpen voor reasoning-modellen. We introduceren verder group-aware SSM-elastificatie die de structurele beperkingen van Mamba behoudt, heterogene MLP-elastificatie, genormaliseerde MSE-gebaseerde laagimportantie voor verbeterde diepteselectie, en knowledge distillation die gelijktijdige multi-budgetoptimalisatie mogelijk maakt. We passen Nemotron Elastic toe op het Nemotron Nano V2 12B-model, waarbij gelijktijdig een 9B- en een 6B-model worden geproduceerd met slechts 110B trainings-tokens; dit resulteert in een kostenreductie van meer dan 360x vergeleken met het vanaf nul trainen van modelfamilies, en ongeveer 7x vergeleken met state-of-the-art compressietechnieken. Elk van de geneste modellen presteert even goed of beter dan de state-of-the-art qua nauwkeurigheid. Bovendien maakt, in tegenstelling tot andere compressiemethoden, de geneste capaciteit van onze aanpak het mogelijk om een alles-in-één reasoning-model te hebben dat een constant inzetgeheugen heeft ongeacht het aantal modellen in de familie.
English
Training a family of large language models targeting multiple scales and deployment objectives is prohibitively expensive, requiring separate training runs for each different size. Recent work on model compression through pruning and knowledge distillation has reduced this cost; however, this process still incurs hundreds of billions of tokens worth of training cost per compressed model. In this paper, we present Nemotron Elastic, a framework for building reasoning-oriented LLMs, including hybrid Mamba-Attention architectures, that embed multiple nested submodels within a single parent model, each optimized for different deployment configurations and budgets. Each of these submodels shares weights with the parent model and can be extracted zero-shot during deployment without additional training or fine-tuning. We enable this functionality through an end-to-end trained router, tightly coupled to a two-stage training curriculum designed specifically for reasoning models. We additionally introduce group-aware SSM elastification that preserves Mamba's structural constraints, heterogeneous MLP elastification, normalized MSE-based layer importance for improved depth selection, and knowledge distillation enabling simultaneous multi-budget optimization. We apply Nemotron Elastic to the Nemotron Nano V2 12B model, simultaneously producing a 9B and a 6B model using only 110B training tokens; this results in over 360x cost reduction compared to training model families from scratch, and around 7x compared to SoTA compression techniques. Each of the nested models performs on par or better than the SoTA in accuracy. Moreover, unlike other compression methods, the nested capability of our approach allows having a many-in-one reasoning model that has constant deployment memory against the number of models in the family.
PDF243December 1, 2025