Немотрон-Флэш: на пути к латентно-оптимальным гибридным малым языковым моделям
Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
November 24, 2025
Авторы: Yonggan Fu, Xin Dong, Shizhe Diao, Matthijs Van keirsbilck, Hanrong Ye, Wonmin Byeon, Yashaswi Karnati, Lucas Liebenwein, Hannah Zhang, Nikolaus Binder, Maksim Khadkevich, Alexander Keller, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI
Аннотация
Эффективное развертывание малых языковых моделей (SLM) крайне важно для множества практических приложений со строгими ограничениями на задержку. В то время как предыдущие работы по проектированию SLM в основном были сосредоточены на сокращении количества параметров для достижения параметрически-оптимальных моделей, параметрическая эффективность не обязательно приводит к пропорциональному ускорению на реальных устройствах. Данная работа направлена на выявление ключевых факторов, определяющих задержку SLM на реальных устройствах, и предлагает обобщающие принципы и методологии для проектирования и обучения SLM, когда задержка на реальном устройстве является основным критерием. В частности, мы определяем два ключевых архитектурных фактора: соотношение глубины и ширины сети и выбор операторов. Первый фактор критически важен для задержки при малом размере пакета, тогда как второй влияет как на задержку, так и на пропускную способность при большом размере пакета. В свете этого мы сначала исследуем оптимальные с точки зрения задержки соотношения глубины и ширины, с ключевым выводом: хотя глубокие и узкие модели, как правило, достигают лучшей точности при том же бюджете параметров, они могут не находиться на границе компромисса между точностью и задержкой. Далее мы исследуем новые эффективные альтернативы механизму внимания, чтобы оценить их потенциал в качестве кандидатов в базовые операторы. Используя выявленные перспективные операторы, мы构建 (строим) фреймворк эволюционного поиска для автоматического обнаружения оптимальных по задержке комбинаций этих операторов в гибридных SLM, тем самым продвигая границу компромисса точность-задержка. Помимо архитектурных улучшений, мы дополнительно усиливаем обучение SLM с помощью техники нормализации весов, которая обеспечивает более эффективное обновление весов и улучшает конечную сходимость. Комбинируя эти методы, мы представляем новое семейство гибридных SLM под названием Nemotron-Flash, которое значительно продвигает границу компромисса точность-эффективность современных SLM, например, демонстрируя в среднем более чем на +5.5%更高的准确率 (более высокую точность), в 1.3x/1.9x меньшую задержку и в 18.7x/45.6x более высокую пропускную способность по сравнению с Qwen3-1.7B/0.6B соответственно.
English
Efficient deployment of small language models (SLMs) is essential for numerous real-world applications with stringent latency constraints. While previous work on SLM design has primarily focused on reducing the number of parameters to achieve parameter-optimal SLMs, parameter efficiency does not necessarily translate into proportional real-device speed-ups. This work aims to identify the key determinants of SLMs' real-device latency and offer generalizable principles and methodologies for SLM design and training when real-device latency is the primary consideration. Specifically, we identify two central architectural factors: depth-width ratios and operator choices. The former is crucial for small-batch-size latency, while the latter affects both latency and large-batch-size throughput. In light of this, we first study latency-optimal depth-width ratios, with the key finding that although deep-thin models generally achieve better accuracy under the same parameter budget, they may not lie on the accuracy-latency trade-off frontier. Next, we explore emerging efficient attention alternatives to evaluate their potential as candidate building operators. Using the identified promising operators, we construct an evolutionary search framework to automatically discover latency-optimal combinations of these operators within hybrid SLMs, thereby advancing the accuracy-latency frontier. In addition to architectural improvements, we further enhance SLM training using a weight normalization technique that enables more effective weight updates and improves final convergence. Combining these methods, we introduce a new family of hybrid SLMs, called Nemotron-Flash, which significantly advances the accuracy-efficiency frontier of state-of-the-art SLMs, e.g., achieving over +5.5% average accuracy, 1.3x/1.9x lower latency, and 18.7x/45.6x higher throughput compared to Qwen3-1.7B/0.6B, respectively.