ChatPaper.aiChatPaper

Nemotron Elástico: Hacia Modelos de Lenguaje Grandes de Razonamiento Eficientes Muchos en Uno

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

November 20, 2025
Autores: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
cs.AI

Resumen

Entrenar una familia de modelos de lenguaje grande dirigidos a múltiples escalas y objetivos de implementación es prohibitivamente costoso, ya que requiere ejecuciones de entrenamiento separadas para cada tamaño diferente. Trabajos recientes sobre compresión de modelos mediante poda y destilación de conocimiento han reducido este coste; sin embargo, este proceso aún incurre en un coste de entrenamiento equivalente a cientos de miles de millones de tokens por modelo comprimido. En este artículo, presentamos Nemotron Elastic, un marco para construir LLMs orientados al razonamiento, incluyendo arquitecturas híbridas Mamba-Atención, que integran múltiples submodelos anidados dentro de un único modelo padre, cada uno optimizado para diferentes configuraciones de implementación y presupuestos. Cada uno de estos submodelos comparte pesos con el modelo padre y puede extraerse *zero-shot* durante la implementación sin necesidad de entrenamiento o ajuste fino adicional. Habilitamos esta funcionalidad mediante un enrutador entrenado de extremo a extremo, estrechamente acoplado a un plan de formación de dos etapas diseñado específicamente para modelos de razonamiento. Además, introducimos la elastificación SSM con conciencia de grupo que preserva las restricciones estructurales de Mamba, la elastificación MLP heterogénea, la importancia de capas basada en MSE normalizado para una mejor selección de profundidad, y la destilación de conocimiento que permite la optimización multi-presupuesto simultánea. Aplicamos Nemotron Elastic al modelo Nemotron Nano V2 de 12B, produciendo simultáneamente un modelo de 9B y uno de 6B utilizando solo 110B tokens de entrenamiento; esto resulta en una reducción de costes de más de 360x en comparación con entrenar familias de modelos desde cero, y aproximadamente 7x en comparación con las técnicas de compresión SoTA. Cada uno de los modelos anidados rinde a la par o mejor que el SoTA en precisión. Además, a diferencia de otros métodos de compresión, la capacidad anidada de nuestro enfoque permite tener un modelo de razonamiento múltiple-en-uno que tiene un coste de memoria de implementación constante frente al número de modelos en la familia.
English
Training a family of large language models targeting multiple scales and deployment objectives is prohibitively expensive, requiring separate training runs for each different size. Recent work on model compression through pruning and knowledge distillation has reduced this cost; however, this process still incurs hundreds of billions of tokens worth of training cost per compressed model. In this paper, we present Nemotron Elastic, a framework for building reasoning-oriented LLMs, including hybrid Mamba-Attention architectures, that embed multiple nested submodels within a single parent model, each optimized for different deployment configurations and budgets. Each of these submodels shares weights with the parent model and can be extracted zero-shot during deployment without additional training or fine-tuning. We enable this functionality through an end-to-end trained router, tightly coupled to a two-stage training curriculum designed specifically for reasoning models. We additionally introduce group-aware SSM elastification that preserves Mamba's structural constraints, heterogeneous MLP elastification, normalized MSE-based layer importance for improved depth selection, and knowledge distillation enabling simultaneous multi-budget optimization. We apply Nemotron Elastic to the Nemotron Nano V2 12B model, simultaneously producing a 9B and a 6B model using only 110B training tokens; this results in over 360x cost reduction compared to training model families from scratch, and around 7x compared to SoTA compression techniques. Each of the nested models performs on par or better than the SoTA in accuracy. Moreover, unlike other compression methods, the nested capability of our approach allows having a many-in-one reasoning model that has constant deployment memory against the number of models in the family.
PDF243December 1, 2025