Nemotron-Flash: Rumo a Modelos de Linguagem Pequenos Híbridos com Latência Otimizada

Resumo

A implantação eficiente de pequenos modelos de linguagem (SLMs) é essencial para inúmeras aplicações do mundo real com restrições rigorosas de latência. Embora trabalhos anteriores sobre o design de SLMs tenham-se concentrado principalmente na redução do número de parâmetros para obter SLMs com otimização paramétrica, a eficiência em parâmetros não se traduz necessariamente em acelerações proporcionais em dispositivos reais. Este trabalho visa identificar os determinantes-chave da latência de SLMs em dispositivos reais e oferecer princípios e metodologias generalizáveis para o design e treinamento de SLMs quando a latência no dispositivo real é a consideração primária. Especificamente, identificamos dois fatores arquiteturais centrais: as proporções profundidade-largura e as escolhas de operadores. O primeiro é crucial para a latência com tamanhos de lote pequenos, enquanto o último afeta tanto a latência quanto a taxa de transferência com tamanhos de lote grandes. Diante disso, primeiro estudamos as proporções profundidade-largura ótimas para latência, com a principal descoberta de que, embora modelos profundos e estreitos geralmente atinjam melhor precisão sob o mesmo orçamento de parâmetros, eles podem não estar na fronteira de compromisso precisão-latência. Em seguida, exploramos alternativas emergentes de atenção eficiente para avaliar o seu potencial como operadores básicos candidatos. Utilizando os operadores promissores identificados, construímos um framework de busca evolutiva para descobrir automaticamente combinações ótimas de latência desses operadores dentro de SLMs híbridos, avançando assim a fronteira de precisão-latência. Além de melhorias arquiteturais, aprimoramos ainda mais o treinamento de SLMs usando uma técnica de normalização de pesos que permite atualizações de peso mais eficazes e melhora a convergência final. Combinando esses métodos, introduzimos uma nova família de SLMs híbridos, chamada Nemotron-Flash, que avança significativamente a fronteira de precisão-eficiência dos SLMs state-of-the-art, por exemplo, alcançando mais de +5,5% de precisão média, latência 1,3x/1,9x menor e taxa de transferência 18,7x/45,6x maior em comparação com Qwen3-1.7B/0.6B, respetivamente.

English

Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.

Nemotron-Flash: Rumo a Modelos de Linguagem Pequenos Híbridos com Latência Otimizada

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

Resumo

Support