ChatPaper.aiChatPaper

Nemotron-Flash : Vers des Petits Modèles de Langage Hybrides à Latence Optimale

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

November 24, 2025
papers.authors: Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI

papers.abstract

Le déploiement efficace de petits modèles de langage (SLM) est essentiel pour de nombreuses applications réelles soumises à des contraintes de latence strictes. Si les travaux antérieurs sur la conception des SLM se sont principalement concentrés sur la réduction du nombre de paramètres pour obtenir des SLM optimaux en termes de paramètres, l'efficacité paramétrique ne se traduit pas nécessairement par des accélérations proportionnelles sur les appareils réels. Ce travail vise à identifier les déterminants clés de la latence des SLM sur appareils réels et à proposer des principes et méthodologies généralisables pour la conception et l'entraînement des SLM lorsque la latence réelle est la considération primordiale. Plus précisément, nous identifions deux facteurs architecturaux centraux : les ratios profondeur-largeur et les choix d'opérateurs. Le premier est crucial pour la latence avec de petites tailles de lot, tandis que le second affecte à la fois la latence et le débit avec de grandes tailles de lot. À la lumière de cela, nous étudions d'abord les ratios profondeur-largeur optimaux pour la latence, avec pour conclusion principale que bien que les modèles profonds et étroits obtiennent généralement une meilleure précision sous un budget paramétrique identique, ils peuvent ne pas se situer sur la frontière d'optimisation précision-latence. Ensuite, nous explorons des alternatives émergentes d'attention efficace pour évaluer leur potentiel en tant qu'opérateurs de construction candidats. En utilisant les opérateurs prometteurs identifiés, nous construisons un cadre de recherche évolutive pour découvrir automatiquement les combinaisons optimales de ces opérateurs en termes de latence au sein de SLM hybrides, faisant ainsi progresser la frontière précision-latence. Outre les améliorations architecturales, nous optimisons davantage l'entraînement des SLM en utilisant une technique de normalisation des poids qui permet des mises à jour plus efficaces des poids et améliore la convergence finale. En combinant ces méthodes, nous présentons une nouvelle famille de SLM hybrides, appelée Nemotron-Flash, qui fait significativement progresser la frontière précision-efficacité des SLM de pointe, par exemple en atteignant une précision moyenne supérieure de plus de 5,5 %, une latence réduite d'un facteur 1,3/1,9 et un débit multiplié par 18,7/45,6 par rapport à Qwen3-1.7B/0.6B, respectivement.
English
Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.
PDF71December 2, 2025