Nemotron-Flash: Auf dem Weg zu latenzoptimalen hybriden kleinen Sprachmodellen
Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
November 24, 2025
papers.authors: Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI
papers.abstract
Die effiziente Bereitstellung kleiner Sprachmodelle (Small Language Models, SLMs) ist für zahlreiche Anwendungen in der realen Welt mit strengen Latenzanforderungen von entscheidender Bedeutung. Während sich frühere Arbeiten zum SLM-Design hauptsächlich auf die Reduzierung der Parameteranzahl konzentrierten, um parameteroptimale SLMs zu erreichen, führt Parameter-Effizienz nicht zwangsläufig zu proportionalen Geschwindigkeitssteigerungen auf realen Geräten. Diese Arbeit zielt darauf ab, die Schlüsselfaktoren für die Latenz von SLMs auf realen Geräten zu identifizieren und verallgemeinerbare Prinzipien und Methoden für das Design und Training von SLMs zu liefern, wenn die Latenz auf realen Geräten die primäre Überlegung ist. Konkret identifizieren wir zwei zentrale architektonische Faktoren: Tiefe-Breite-Verhältnisse und die Wahl der Operatoren. Ersteres ist entscheidend für die Latenz bei kleiner Batch-Größe, während Letzteres sowohl die Latenz als auch den Durchsatz bei großer Batch-Größe beeinflusst. Vor diesem Hintergrund untersuchen wir zunächst latenzoptimale Tiefe-Breite-Verhältnisse, mit der zentralen Erkenntnis, dass zwar tiefe, schmale Modelle unter demselben Parameterbudget generell eine bessere Genauigkeit erreichen, sie sich jedoch möglicherweise nicht an der Grenze des Genauigkeits-Latenz-Kompromisses befinden. Anschließend untersuchen wir neuartige, effiziente Attention-Alternativen, um ihr Potenzial als grundlegende Bausteine zu bewerten. Unter Verwendung der identifizierten vielversprechenden Operatoren konstruieren wir einen evolutionären Suchframework, um automatisch latenzoptimale Kombinationen dieser Operatoren innerhalb hybrider SLMs zu entdecken und so die Genauigkeits-Latenz-Grenze zu erweitern. Zusätzlich zu architektonischen Verbesserungen optimieren wir das SLM-Training weiter durch eine Gewichtsnormalisierungstechnik, die effektivere Gewichtsaktualisierungen ermöglicht und die endgültige Konvergenz verbessert. Durch die Kombination dieser Methoden führen wir eine neue Familie hybrider SLMs namens Nemotron-Flash ein, die die Genauigkeits-Effizienz-Grenze modernster SLMs erheblich vorantreibt, z.B. mit einer um über +5,5 % höheren durchschnittlichen Genauigkeit, einer 1,3-fach/1,9-fach geringeren Latenz und einem 18,7-fach/45,6-fach höheren Durchsatz im Vergleich zu Qwen3-1.7B/0.6B.
English
Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.