ChatPaper.aiChatPaper

Nemotron-Flash:レイテンシ最適化を目指すハイブリッド小型言語モデルへのアプローチ

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

November 24, 2025
著者: Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI

要旨

低遅延が求められる多くの実世界アプリケーションにおいて、小型言語モデル(SLM)の効率的なデプロイは極めて重要である。従来のSLM設計研究は主にパラメータ数を削減し、パラメータ効率の最適化を目指してきたが、パラメータ効率の向上が実デバイス上の速度向上に比例するとは限らない。本研究は、SLMの実デバイス遅延を決定する主要因を特定し、遅延を主たる考慮事項とするSLM設計・学習の一般化可能な原則と方法論を提示することを目的とする。具体的には、深さと幅の比率(Depth-Width Ratio)と演算子の選択という二つの中心的なアーキテクチャ要因に着目する。前者は小バッチサイズ時の遅延に、後者は遅延と大バッチサイズ時のスループットの両方に影響を与える。この観点から、まず遅延最適な深さと幅の比率を調査し、同じパラメータ予算では一般的に深く細いモデルが高い精度を達成するものの、それらが必ずしも精度と遅延のトレードオフ前沿(Pareto Frontier)上に位置しないという重要な知見を得た。次に、新たな効率的な注意機構の代替案を探索し、構築要素としての可能性を評価する。特定された有望な演算子を用いて、進化的探索フレームワークを構築し、ハイブリッドSLM内でこれらの演算子の遅延最適な組み合わせを自動発見することで、精度と遅延のトレードオフ前沿を推進する。アーキテクチャ改善に加え、重み正規化技術を用いてSLMの学習を強化し、より効果的な重み更新と最終的な収束の改善を実現した。これらの手法を組み合わせることで、Nemotron-Flashと名付けた新たなハイブリッドSLMファミリーを提案する。これは最新のSLMの精度と効率のトレードオフ前沿を大幅に押し上げており、例えばQwen3-1.7B/0.6Bと比較して、平均精度で+5.5%以上向上し、遅延は1.3倍/1.9倍低減、スループットは18.7倍/45.6倍向上している。
English
Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.
PDF71December 2, 2025