ChatPaper.aiChatPaper

Nemotron Elastic: 効率的な多機能推論LLMを目指して

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

November 20, 2025
著者: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
cs.AI

要旨

複数の規模や配備目標を対象とした大規模言語モデルファミリーを訓練することは、各サイズごとに個別の訓練実行が必要となるため、非常に高コストです。刈り込みや知識蒸留によるモデル圧縮に関する最近の研究はこのコストを削減してきましたが、圧縮モデルごとに数千億トークンに相当する訓練コストが依然として発生します。本論文では、推論指向のLLMを構築するためのフレームワークであるNemotron Elasticを提案します。これはハイブリッドMamba-Attentionアーキテクチャを含み、単一の親モデル内に複数のネスト化されたサブモデルを埋め込み、それぞれが異なる配備構成と予算に最適化されています。これらのサブモデルは各々親モデルと重みを共有し、追加の訓練やファインチューニングなしで配備時にゼロショットで抽出できます。この機能を、推論モデルに特化して設計された二段階訓練カリキュラムと密接に連携したエンドツーエンド訓練ルーターによって実現します。さらに、Mambaの構造的制約を保持するグループ認識SSM弾性化、異種MLP弾性化、改善された深度選択のための正規化MSEベースの層重要度、同時多予算最適化を可能にする知識蒸留を導入します。Nemotron ElasticをNemotron Nano V2 12Bモデルに適用し、わずか110B訓練トークンを使用して9Bモデルと6Bモデルを同時に生成します。これにより、モデルファミリーをスクラッチから訓練する場合と比較して360倍以上のコスト削減を実現し、SoTA圧縮技術と比較しても約7倍の効率化を達成します。各ネスト化モデルは精度においてSoTAと同等以上の性能を発揮します。さらに、他の圧縮手法とは異なり、本アプローチのネスト化能力により、ファミリー内のモデル数に対して配備メモリが一定となるオールインワン推論モデルを実現できます。
English
Training a family of large language models targeting multiple scales and deployment objectives is prohibitively expensive, requiring separate training runs for each different size. Recent work on model compression through pruning and knowledge distillation has reduced this cost; however, this process still incurs hundreds of billions of tokens worth of training cost per compressed model. In this paper, we present Nemotron Elastic, a framework for building reasoning-oriented LLMs, including hybrid Mamba-Attention architectures, that embed multiple nested submodels within a single parent model, each optimized for different deployment configurations and budgets. Each of these submodels shares weights with the parent model and can be extracted zero-shot during deployment without additional training or fine-tuning. We enable this functionality through an end-to-end trained router, tightly coupled to a two-stage training curriculum designed specifically for reasoning models. We additionally introduce group-aware SSM elastification that preserves Mamba's structural constraints, heterogeneous MLP elastification, normalized MSE-based layer importance for improved depth selection, and knowledge distillation enabling simultaneous multi-budget optimization. We apply Nemotron Elastic to the Nemotron Nano V2 12B model, simultaneously producing a 9B and a 6B model using only 110B training tokens; this results in over 360x cost reduction compared to training model families from scratch, and around 7x compared to SoTA compression techniques. Each of the nested models performs on par or better than the SoTA in accuracy. Moreover, unlike other compression methods, the nested capability of our approach allows having a many-in-one reasoning model that has constant deployment memory against the number of models in the family.
PDF243December 1, 2025