네모트론 엘라스틱: 효율적인 다중 작업 추론 대규모 언어 모델로의 여정
Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
November 20, 2025
저자: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov
cs.AI
초록
다양한 규모와 배포 목표를 대상으로 대규모 언어 모델 군을 훈련시키는 것은 각기 다른 크기마다 별도의 훈련 실행이 필요해 비용이 엄청나게 많이 든다. 프루닝과 지식 증류를 통한 모델 압축에 대한 최근 연구로 이 비용이 절감되었지만, 압축 모델당 수천억 토큰에 해당하는 훈련 비용이 여전히 발생한다. 본 논문에서는 하이브리드 맘바-어텐션 아키텍처를 포함하여, 단일 상위 모델 내에 여러 중첩된 하위 모델을 내장하고 각각 다른 배포 구성과 예산에 최적화된 추론 중심 LLM 구축 프레임워크인 Nemotron Elastic을 제안한다. 이러한 각 하위 모델은 상위 모델과 가중치를 공유하며, 추가 훈련이나 미세 조정 없이 배포 시 제로샷으로 추출될 수 있다. 우리는 추론 모델에 특화된 2단계 훈련 커리큘럼과 긴밀하게 결합된 엔드투엔드 방식으로 훈련된 라우터를 통해 이 기능을 구현한다. 또한 맘바의 구조적 제약을 보존하는 그룹 인식 SSM 탄성화, 이기종 MLP 탄성화, 개선된 깊이 선택을 위한 정규화 MSE 기반 계층 중요도, 그리고 다중 예산 동시 최적화를 가능하게 하는 지식 증류를 추가로 도입한다. 우리는 Nemotron Elastic을 Nemotron Nano V2 12B 모델에 적용하여 단 110B 훈련 토큰만으로 9B 및 6B 모델을 동시에 생성했으며, 이는 처음부터 모델 군을 훈련하는 것에 비해 360배 이상, 최신 SoTA 압축 기술과 비교해约 7배의 비용 절감 효과를 거두었다. 중첩된 각 모델은 정확도 면에서 SoTA와 동등하거나 더 나은 성능을 보인다. 더욱이, 다른 압축 방법과 달리 우리 접근법의 중첩 기능은 모델 군 내 모델 수에 대해 일정한 배포 메모리를 유지하는 다중合一 추론 모델을 가능하게 한다.
English
Training a family of large language models targeting multiple scales and deployment objectives is prohibitively expensive, requiring separate training runs for each different size. Recent work on model compression through pruning and knowledge distillation has reduced this cost; however, this process still incurs hundreds of billions of tokens worth of training cost per compressed model. In this paper, we present Nemotron Elastic, a framework for building reasoning-oriented LLMs, including hybrid Mamba-Attention architectures, that embed multiple nested submodels within a single parent model, each optimized for different deployment configurations and budgets. Each of these submodels shares weights with the parent model and can be extracted zero-shot during deployment without additional training or fine-tuning. We enable this functionality through an end-to-end trained router, tightly coupled to a two-stage training curriculum designed specifically for reasoning models. We additionally introduce group-aware SSM elastification that preserves Mamba's structural constraints, heterogeneous MLP elastification, normalized MSE-based layer importance for improved depth selection, and knowledge distillation enabling simultaneous multi-budget optimization. We apply Nemotron Elastic to the Nemotron Nano V2 12B model, simultaneously producing a 9B and a 6B model using only 110B training tokens; this results in over 360x cost reduction compared to training model families from scratch, and around 7x compared to SoTA compression techniques. Each of the nested models performs on par or better than the SoTA in accuracy. Moreover, unlike other compression methods, the nested capability of our approach allows having a many-in-one reasoning model that has constant deployment memory against the number of models in the family.