ChatPaper.aiChatPaper

Nemotron-Flash: 대기 시간 최적화를 향한 하이브리드 소형 언어 모델

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

November 24, 2025
저자: Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI

초록

실제 기기에서의 지연 시간(latency)이 주요 고려사항일 때 소규모 언어 모델(SLM) 설계 및 학습을 위한 일반화 가능한 원칙과 방법론을 제시하고자 한다. 구체적으로 우리는 두 가지 핵심 구조적 결정 요인, 즉 깊이-폭 비율(depth-width ratio)과 연산자(operator) 선택을 확인했다. 전자는 소규모 배치 크기(small-batch-size)에서의 지연 시간에, 후자는 지연 시간과 대규모 배치 크기(large-batch-size) 처리량(throughput) 모두에 영향을 미친다. 이를 바탕으로 우리는 먼저 지연 시간 최적의 깊이-폭 비율을 연구했으며, 동일한 매개변수 예산 내에서 일반적으로 깊고 얇은(deep-thin) 모델이 더 나은 정확도를 달성하지만, 이들이 정확도-지연 시간 트레이드오프 경계선 상에 위치하지는 않을 수 있다는 핵심 결과를 도출했다. 다음으로, 차세대 효율적 어텐션(attention) 대안들을 탐구하여 구성 연산자 후보로서의 잠재력을 평가했다. 확인된 유망 연산자들을 활용하여 하이브리드 SLM 내에서 이러한 연산자들의 지연 시간 최적 조합을 자동으로 발견하는 진화적 탐색 프레임워크를 구축함으로써 정확도-지연 시간 경계선을 발전시켰다. 구조적 개선 외에도 가중치 정규화(weight normalization) 기법을 사용해 SLM 학습을 추가로 향상시켜 더 효과적인 가중치 업데이트와 최종 수렴(convergence) 개선을 가능하게 했다. 이러한 방법들을 결합하여 Nemotron-Flash라는 새로운 하이브리드 SLM 패밀리를 소개하며, 이는 최신 SLM의 정확도-효율성 경계선을 크게 발전시켜 예를 들어 Qwen3-1.7B/0.6B 대비 평균 정확도 +5.5% 이상 향상, 지연 시간 1.3배/1.9배 감소, 처리량 18.7배/45.6배 향상을 각각 달성했다.
English
Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.
PDF71December 2, 2025