ChatPaper.aiChatPaper

Nemotron-Flash: Hacia Modelos de Lenguaje Pequeños Híbridos con Latencia Óptima

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

November 24, 2025
Autores: Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI

Resumen

El despliegue eficiente de pequeños modelos de lenguaje (SLM) es esencial para numerosas aplicaciones del mundo real con restricciones estrictas de latencia. Si bien trabajos previos sobre el diseño de SLM se han centrado principalmente en reducir el número de parámetros para lograr SLM óptimos en parámetros, la eficiencia de parámetros no necesariamente se traduce en aceleraciones proporcionales en dispositivos reales. Este trabajo tiene como objetivo identificar los determinantes clave de la latencia de los SLM en dispositivos reales y ofrecer principios y metodologías generalizables para el diseño y entrenamiento de SLM cuando la latencia en dispositivo real es la consideración principal. Específicamente, identificamos dos factores arquitectónicos centrales: las relaciones profundidad-anchura y las elecciones de operadores. El primero es crucial para la latencia con tamaños de lote pequeños, mientras que el segundo afecta tanto a la latencia como al rendimiento con tamaños de lote grandes. En vista de esto, primero estudiamos las relaciones profundidad-anchura óptimas para latencia, con el hallazgo clave de que, aunque los modelos profundos y delgados generalmente logran una mejor precisión bajo el mismo presupuesto de parámetros, pueden no estar en la frontera de equilibrio precisión-latencia. A continuación, exploramos alternativas emergentes de atención eficiente para evaluar su potencial como operadores básicos candidatos. Utilizando los operadores prometedores identificados, construimos un marco de búsqueda evolutiva para descubrir automáticamente combinaciones óptimas de latencia de estos operadores dentro de SLM híbridos, avanzando así en la frontera precisión-latencia. Además de las mejoras arquitectónicas, mejoramos aún más el entrenamiento de SLM utilizando una técnica de normalización de pesos que permite actualizaciones de pesos más efectivas y mejora la convergencia final. Combinando estos métodos, presentamos una nueva familia de SLM híbridos, llamada Nemotron-Flash, que avanza significativamente la frontera precisión-eficiencia de los SLM más avanzados, por ejemplo, logrando más de +5.5% de precisión promedio, 1.3x/1.9x menor latencia y 18.7x/45.6x mayor rendimiento en comparación con Qwen3-1.7B/0.6B, respectivamente.
English
Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.
PDF71December 2, 2025