ChatPaper.aiChatPaper

Nemotron Élastique : Vers des LLM de raisonnement efficaces multi-tâches

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

November 20, 2025
papers.authors: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
cs.AI

papers.abstract

L'entraînement d'une famille de grands modèles de langage ciblant différentes échelles et objectifs de déploiement est extrêmement coûteux, nécessitant des cycles d'entraînement distincts pour chaque taille. Les travaux récents sur la compression de modèles par élagage et distillation des connaissances ont réduit ce coût ; cependant, ce processus engendre toujours un coût d'entraînement équivalant à des centaines de milliards de tokens par modèle compressé. Dans cet article, nous présentons Nemotron Elastic, un cadre pour construire des LLM orientés raisonnement, incluant des architectures hybrides Mamba-Attention, qui intègrent plusieurs sous-modèles imbriqués au sein d'un modèle parent unique, chacun étant optimisé pour différentes configurations de déploiement et budgets. Chacun de ces sous-modèles partage les poids avec le modèle parent et peut être extrait de manière zero-shot lors du déploiement sans entraînement ou ajustement supplémentaire. Nous permettons cette fonctionnalité via un routeur entraîné de bout en bout, étroitement couplé à un curriculum d'entraînement en deux étapes conçu spécifiquement pour les modèles de raisonnement. Nous introduisons également une élasticification SSM sensible aux groupes qui préserve les contraintes structurelles de Mamba, une élasticification hétérogène des MLP, une importance des couches basée sur MSE normalisée pour une meilleure sélection en profondeur, et une distillation des connaissances permettant une optimisation multi-budgétaire simultanée. Nous appliquons Nemotron Elastic au modèle Nemotron Nano V2 12B, produisant simultanément un modèle 9B et un modèle 6B en utilisant seulement 110 milliards de tokens d'entraînement ; cela se traduit par une réduction des coûts de plus de 360x par rapport à l'entraînement de familles de modèles from scratch, et d'environ 7x par rapport aux techniques de compression SoTA. Chacun des modèles imbriqués affiche une précision équivalente ou supérieure à l'état de l'art. De plus, contrairement aux autres méthodes de compression, la capacité d'imbrication de notre approche permet d'obtenir un modèle de raisonnement multi-fonctions qui présente une empreinte mémoire de déploiement constante quel que soit le nombre de modèles dans la famille.
English
Training a family of large language models targeting multiple scales and deployment objectives is prohibitively expensive, requiring separate training runs for each different size. Recent work on model compression through pruning and knowledge distillation has reduced this cost; however, this process still incurs hundreds of billions of tokens worth of training cost per compressed model. In this paper, we present Nemotron Elastic, a framework for building reasoning-oriented LLMs, including hybrid Mamba-Attention architectures, that embed multiple nested submodels within a single parent model, each optimized for different deployment configurations and budgets. Each of these submodels shares weights with the parent model and can be extracted zero-shot during deployment without additional training or fine-tuning. We enable this functionality through an end-to-end trained router, tightly coupled to a two-stage training curriculum designed specifically for reasoning models. We additionally introduce group-aware SSM elastification that preserves Mamba's structural constraints, heterogeneous MLP elastification, normalized MSE-based layer importance for improved depth selection, and knowledge distillation enabling simultaneous multi-budget optimization. We apply Nemotron Elastic to the Nemotron Nano V2 12B model, simultaneously producing a 9B and a 6B model using only 110B training tokens; this results in over 360x cost reduction compared to training model families from scratch, and around 7x compared to SoTA compression techniques. Each of the nested models performs on par or better than the SoTA in accuracy. Moreover, unlike other compression methods, the nested capability of our approach allows having a many-in-one reasoning model that has constant deployment memory against the number of models in the family.
PDF243December 1, 2025