ChatPaper.aiChatPaper

Немотрон Эластик: на пути к эффективным многоцелевым большим языковым моделям для логического вывода

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

November 20, 2025
Авторы: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
cs.AI

Аннотация

Обучение семейства больших языковых моделей, ориентированных на различные масштабы и цели развертывания, является чрезмерно дорогостоящим, поскольку требует отдельных циклов обучения для каждого размера модели. Недавние работы по сжатию моделей с помощью прунинга и дистилляции знаний позволили снизить эти затраты; однако данный процесс по-прежнему требует сотен миллиардов токенов для обучения каждой сжатой модели. В данной статье мы представляем Nemotron Elastic — фреймворк для создания LLM, ориентированных на логические рассуждения, включая гибридные архитектуры Mamba-Attention, который позволяет встраивать несколько вложенных подмоделей в одну родительскую модель, каждая из которых оптимизирована для различных конфигураций и бюджетов развертывания. Каждая из этих подмоделей разделяет веса с родительской моделью и может быть извлечена zero-shot во время развертывания без дополнительного обучения или тонкой настройки. Мы обеспечиваем эту функциональность с помощью сквозного обучения маршрутизатора, тесно связанного с двухэтапным учебным планом, специально разработанным для моделей логического вывода. Дополнительно мы представляем групповую эластификацию SSM с сохранением структурных ограничений Mamba, гетерогенную эластификацию MLP, нормализованную оценку важности слоев на основе MSE для улучшения выбора глубины и дистилляцию знаний, позволяющую одновременную оптимизацию для нескольких бюджетов. Мы применяем Nemotron Elastic к модели Nemotron Nano V2 12B, одновременно создавая модели на 9B и 6B параметров, используя всего 110B токенов обучения; это приводит к сокращению затрат более чем в 360 раз по сравнению с обучением семейств моделей с нуля и примерно в 7 раз по сравнению с современными методами сжатия. Каждая из вложенных моделей демонстрирует точность на уровне или выше современных аналогов. Более того, в отличие от других методов сжатия, вложенная природа нашего подхода позволяет создать модель рассуждений «много-в-одном», которая имеет постоянный объем памяти при развертывании независимо от количества моделей в семействе.
English
Training a family of large language models targeting multiple scales and deployment objectives is prohibitively expensive, requiring separate training runs for each different size. Recent work on model compression through pruning and knowledge distillation has reduced this cost; however, this process still incurs hundreds of billions of tokens worth of training cost per compressed model. In this paper, we present Nemotron Elastic, a framework for building reasoning-oriented LLMs, including hybrid Mamba-Attention architectures, that embed multiple nested submodels within a single parent model, each optimized for different deployment configurations and budgets. Each of these submodels shares weights with the parent model and can be extracted zero-shot during deployment without additional training or fine-tuning. We enable this functionality through an end-to-end trained router, tightly coupled to a two-stage training curriculum designed specifically for reasoning models. We additionally introduce group-aware SSM elastification that preserves Mamba's structural constraints, heterogeneous MLP elastification, normalized MSE-based layer importance for improved depth selection, and knowledge distillation enabling simultaneous multi-budget optimization. We apply Nemotron Elastic to the Nemotron Nano V2 12B model, simultaneously producing a 9B and a 6B model using only 110B training tokens; this results in over 360x cost reduction compared to training model families from scratch, and around 7x compared to SoTA compression techniques. Each of the nested models performs on par or better than the SoTA in accuracy. Moreover, unlike other compression methods, the nested capability of our approach allows having a many-in-one reasoning model that has constant deployment memory against the number of models in the family.
PDF243December 1, 2025