ChatPaper.aiChatPaper

WINA : Activation Neuronale Informée par les Poids pour l'Accélération de l'Inférence des Grands Modèles de Langage

WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference

May 26, 2025
Auteurs: Sihan Chen, Dan Zhao, Jongwoo Ko, Colby Banbury, Huiping Zhuang, Luming Liang, Tianyi Chen
cs.AI

Résumé

Les exigences croissantes en matière de calcul des grands modèles de langage (LLM) rendent les stratégies d'inférence et d'activation efficaces de plus en plus cruciales. Bien que des approches récentes, telles que le Mixture-of-Experts (MoE), exploitent une activation sélective mais nécessitent un entraînement spécialisé, les méthodes d'activation parcimonieuse sans entraînement offrent une applicabilité plus large et une efficacité supérieure des ressources grâce à leur conception plug-and-play. Cependant, de nombreuses méthodes existantes reposent uniquement sur les magnitudes des états cachés pour déterminer l'activation, ce qui entraîne des erreurs d'approximation élevées et une précision d'inférence sous-optimale. Pour remédier à ces limitations, nous proposons WINA (Weight Informed Neuron Activation), un nouveau cadre d'activation parcimonieuse simple et sans entraînement qui prend en compte conjointement les magnitudes des états cachés et les normes ell_2 colonne par colonne des matrices de poids. Nous montrons que cela conduit à une stratégie de parcimonie qui obtient des bornes d'erreur d'approximation optimales avec des garanties théoriques plus strictes que les techniques existantes. Empiriquement, WINA surpasse également les méthodes de pointe (par exemple, TEAL) jusqu'à 2,94 % en performance moyenne aux mêmes niveaux de parcimonie, sur un ensemble diversifié d'architectures de LLM et de jeux de données. Ces résultats positionnent WINA comme une nouvelle frontière de performance pour l'activation parcimonieuse sans entraînement dans l'inférence des LLM, faisant progresser les méthodes d'activation parcimonieuse sans entraînement et établissant une base robuste pour une inférence efficace. Le code source est disponible à l'adresse https://github.com/microsoft/wina.
English
The growing computational demands of large language models (LLMs) make efficient inference and activation strategies increasingly critical. While recent approaches, such as Mixture-of-Experts (MoE), leverage selective activation but require specialized training, training-free sparse activation methods offer broader applicability and superior resource efficiency through their plug-and-play design. However, many existing methods rely solely on hidden state magnitudes to determine activation, resulting in high approximation errors and suboptimal inference accuracy. To address these limitations, we propose WINA (Weight Informed Neuron Activation), a novel, simple, and training-free sparse activation framework that jointly considers hidden state magnitudes and the column-wise ell_2-norms of weight matrices. We show that this leads to a sparsification strategy that obtains optimal approximation error bounds with theoretical guarantees tighter than existing techniques. Empirically, WINA also outperforms state-of-the-art methods (e.g., TEAL) by up to 2.94% in average performance at the same sparsity levels, across a diverse set of LLM architectures and datasets. These results position WINA as a new performance frontier for training-free sparse activation in LLM inference, advancing training-free sparse activation methods and setting a robust baseline for efficient inference. The source code is available at https://github.com/microsoft/wina.

Summary

AI-Generated Summary

PDF92May 27, 2025