ChatPaper.aiChatPaper

Nemotron-Flash: Verso Modelli Linguistici Ibridi di Piccole Dimensioni a Latenza Ottimale

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

November 24, 2025
Autori: Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI

Abstract

La distribuzione efficiente di piccoli modelli linguistici (SLM) è essenziale per numerose applicazioni reali con stringenti vincoli di latenza. Mentre i precedenti lavori sulla progettazione di SLM si sono concentrati principalmente sulla riduzione del numero di parametri per ottenere SLM ottimali in termini parametrici, l'efficienza parametrica non si traduce necessariamente in miglioramenti di velocità proporzionali sui dispositivi reali. Questo lavoro mira a identificare i determinanti chiave della latenza degli SLM sui dispositivi reali e a offrire principi e metodologie generalizzabili per la progettazione e l'addestramento degli SLM quando la latenza sul dispositivo reale è la considerazione primaria. Nello specifico, identifichiamo due fattori architetturali centrali: i rapporti profondità-larghezza e le scelte degli operatori. Il primo è cruciale per la latenza con dimensioni del batch piccole, mentre il secondo influisce sia sulla latenza che sul throughput con dimensioni del batch grandi. Alla luce di ciò, studiamo innanzitutto i rapporti profondità-larghezza ottimali per la latenza, con la scoperta chiave che, sebbene i modelli profondi e stretti generalmente raggiungano una migliore accuratezza a parità di budget parametrico, essi potrebbero non trovarsi sulla frontiera del compromesso accuratezza-latenza. Successivamente, esploriamo alternative emergenti per l'attenzione efficiente per valutarne il potenziale come operatori costitutivi candidati. Utilizzando gli operatori promettenti identificati, costruiamo un framework di ricerca evolutiva per scoprire automaticamente combinazioni ottimali per la latenza di questi operatori all'interno di SLM ibridi, avanzando così la frontiera accuratezza-latenza. Oltre ai miglioramenti architetturali, potenziamo ulteriormente l'addestramento degli SLM utilizzando una tecnica di normalizzazione dei pesi che consente aggiornamenti dei pesi più efficaci e migliora la convergenza finale. Combinando questi metodi, introduciamo una nuova famiglia di SLM ibridi, chiamata Nemotron-Flash, che avanza significativamente la frontiera accuratezza-efficienza degli SLM all'avanguardia, ad esempio raggiungendo un'accuratezza media superiore di oltre il +5,5%, una latenza inferiore di 1,3x/1,9x e un throughput più alto di 18,7x/45,6x rispetto a Qwen3-1.7B/0.6B, rispettivamente.
English
Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.
PDF71December 2, 2025