Nemotron-Flash: Op weg naar latentie-optimale hybride kleine taalmodellen
Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
November 24, 2025
Auteurs: Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI
Samenvatting
Efficiënte inzet van kleine taalmodellen (SLM's) is essentieel voor talloze real-world toepassingen met strenge latentie-eisen. Waar eerder onderzoek naar SLM-ontwerp zich vooral richtte op het verminderen van het aantal parameters om parameteroptimale SLM's te bereiken, vertaalt parameter-efficiëntie zich niet noodzakelijk in proportionele snelheidswinst op echte apparaten. Dit werk beoogt de belangrijkste determinanten van de latentie van SLM's op echte apparaten te identificeren en generaliseerbare principes en methodologieën aan te reiken voor SLM-ontwerp en -training wanneer latentie op echte apparaten de primaire overweging is. Concreet identificeren we twee centrale architectuurfactoren: diepte-breedteverhoudingen en keuzes van operatoren. De eerste is cruciaal voor latentie bij kleine batchgroottes, terwijl de laatste zowel latentie als doorvoer bij grote batchgroottes beïnvloedt.
In dit licht bestuderen we eerst latentie-optimale diepte-breedteverhoudingen, met de belangrijkste bevinding dat hoewel diepe, smalle modellen over het algemeen een betere nauwkeurigheid bereiken onder hetzelfde parameterbudget, ze mogelijk niet op de grens van de nauwkeurigheid-latentie trade-off liggen. Vervolgens verkennen we opkomende efficiënte aandacht-alternatieven om hun potentieel als kandidaat-bouwoperatoren te evalueren. Met de geïdentificeerde veelbelovende operatoren construeren we een evolutionair zoekraamwerk om automatisch latentie-optimale combinaties van deze operatoren binnen hybride SLM's te ontdekken, waardoor de nauwkeurigheid-latentie grens wordt verlegd.
Naast architectuurverbeteringen verbeteren we de SLM-training verder met een gewichtsnormalisatietechniek die effectievere gewichtsupdates mogelijk maakt en de uiteindelijke convergentie verbetert. Door deze methoden te combineren, introduceren we een nieuwe familie van hybride SLM's, genaamd Nemotron-Flash, die de nauwkeurigheid-efficiëntie grens van state-of-the-art SLM's aanzienlijk verlegt, bijvoorbeeld met meer dan +5,5% gemiddelde nauwkeurigheid, 1,3x/1,9x lagere latentie en 18,7x/45,6x hogere doorvoer in vergelijking met respectievelijk Qwen3-1.7B/0.6B.
English
Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.