ChatPaper.aiChatPaper

Nemotron Elastic: Auf dem Weg zu effizienten Many-in-One Reasoning LLMs

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

November 20, 2025
papers.authors: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
cs.AI

papers.abstract

Das Training einer Familie großer Sprachmodelle, die auf verschiedene Größen und Einsatzziele abzielen, ist extrem kostspielig, da für jede unterschiedliche Größe separate Trainingsläufe erforderlich sind. Jüngste Arbeiten zur Modellkompression durch Pruning und Knowledge Distillation haben diese Kosten gesenkt; dieser Prozess verursacht jedoch immer noch Trainingskosten in Höhe von mehreren hundert Milliarden Tokens pro komprimiertes Modell. In diesem Artikel stellen wir Nemotron Elastic vor, einen Rahmen zum Aufbau reasoning-orientierter LLMs, einschließlich hybrider Mamba-Attention-Architekturen, die mehrere verschachtelte Teilmodelle in einem einzigen übergeordneten Modell integrieren, die jeweils für verschiedene Einsatzszenarien und Budgets optimiert sind. Jedes dieser Teilmodelle teilt sich die Gewichte mit dem übergeordneten Modell und kann während des Einsatzes ohne zusätzliches Training oder Fine-Tuning zero-shot extrahiert werden. Wir ermöglichen diese Funktionalität durch einen end-to-end trainierten Router, der eng an einen zweistufigen Trainingsplan gekoppelt ist, der speziell für Reasoning-Modelle entwickelt wurde. Zusätzlich führen wir eine gruppenbewusste SSM-Elastifizierung ein, die die strukturellen Einschränkungen von Mamba bewahrt, eine heterogene MLP-Elastifizierung, eine normalisierte MSE-basierte Schichtpriorität für verbesserte Tiefenauswahl und Knowledge Distillation, die gleichzeitige Multi-Budget-Optimierung ermöglicht. Wir wenden Nemotron Elastic auf das Nemotron Nano V2 12B-Modell an und erzeugen gleichzeitig ein 9B- und ein 6B-Modell mit nur 110B Trainingstokens; dies führt zu einer Kostenreduzierung von über 360x im Vergleich zum Training von Modellfamilien von Grund auf und etwa 7x im Vergleich zu State-of-the-Art-Kompressionstechniken. Jedes der verschachtelten Modelle erreicht eine gleichwertige oder bessere Genauigkeit als der State-of-the-Art. Darüber hinaus ermöglicht die verschachtelte Fähigkeit unseres Ansatzes – im Gegensatz zu anderen Kompressionsmethoden – ein Viel-in-Einem-Reasoning-Modell, das einen konstanten Bereitstellungsspeicherbedarf in Bezug auf die Anzahl der Modelle in der Familie aufweist.
English
Training a family of large language models targeting multiple scales and deployment objectives is prohibitively expensive, requiring separate training runs for each different size. Recent work on model compression through pruning and knowledge distillation has reduced this cost; however, this process still incurs hundreds of billions of tokens worth of training cost per compressed model. In this paper, we present Nemotron Elastic, a framework for building reasoning-oriented LLMs, including hybrid Mamba-Attention architectures, that embed multiple nested submodels within a single parent model, each optimized for different deployment configurations and budgets. Each of these submodels shares weights with the parent model and can be extracted zero-shot during deployment without additional training or fine-tuning. We enable this functionality through an end-to-end trained router, tightly coupled to a two-stage training curriculum designed specifically for reasoning models. We additionally introduce group-aware SSM elastification that preserves Mamba's structural constraints, heterogeneous MLP elastification, normalized MSE-based layer importance for improved depth selection, and knowledge distillation enabling simultaneous multi-budget optimization. We apply Nemotron Elastic to the Nemotron Nano V2 12B model, simultaneously producing a 9B and a 6B model using only 110B training tokens; this results in over 360x cost reduction compared to training model families from scratch, and around 7x compared to SoTA compression techniques. Each of the nested models performs on par or better than the SoTA in accuracy. Moreover, unlike other compression methods, the nested capability of our approach allows having a many-in-one reasoning model that has constant deployment memory against the number of models in the family.
PDF243December 1, 2025