WINA: Gewichtsbasierte Neuronaktivierung zur Beschleunigung der Inferenz großer Sprachmodelle
WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference
May 26, 2025
Autoren: Sihan Chen, Dan Zhao, Jongwoo Ko, Colby Banbury, Huiping Zhuang, Luming Liang, Tianyi Chen
cs.AI
Zusammenfassung
Die steigenden Rechenanforderungen großer Sprachmodelle (LLMs) machen effiziente Inferenz- und Aktivierungsstrategien zunehmend kritisch. Während aktuelle Ansätze wie Mixture-of-Experts (MoE) selektive Aktivierung nutzen, jedoch spezialisiertes Training erfordern, bieten trainingsfreie spärliche Aktivierungsmethoden durch ihren Plug-and-Play-Ansatz breitere Anwendbarkeit und überlegene Ressourceneffizienz. Viele bestehende Methoden verlassen sich jedoch ausschließlich auf die Größen der verborgenen Zustände, um die Aktivierung zu bestimmen, was zu hohen Approximationsfehlern und suboptimaler Inferenzgenauigkeit führt. Um diese Einschränkungen zu adressieren, schlagen wir WINA (Weight Informed Neuron Activation) vor, ein neuartiges, einfaches und trainingsfreies spärliches Aktivierungsframework, das sowohl die Größen der verborgenen Zustände als auch die spaltenweisen ℓ₂-Normen der Gewichtsmatrizen gemeinsam berücksichtigt. Wir zeigen, dass dies zu einer Sparsifizierungsstrategie führt, die optimale Approximationsfehlergrenzen mit theoretisch engeren Garantien als bestehende Techniken erreicht. Empirisch übertrifft WINA auch state-of-the-art Methoden (z. B. TEAL) um bis zu 2,94 % in der durchschnittlichen Leistung bei gleichen Sparsitätsniveaus über eine Vielzahl von LLM-Architekturen und Datensätzen hinweg. Diese Ergebnisse positionieren WINA als eine neue Leistungsgrenze für trainingsfreie spärliche Aktivierung in der LLM-Inferenz, die trainingsfreie spärliche Aktivierungsmethoden vorantreibt und eine robuste Baseline für effiziente Inferenz setzt. Der Quellcode ist unter https://github.com/microsoft/wina verfügbar.
English
The growing computational demands of large language models (LLMs) make
efficient inference and activation strategies increasingly critical. While
recent approaches, such as Mixture-of-Experts (MoE), leverage selective
activation but require specialized training, training-free sparse activation
methods offer broader applicability and superior resource efficiency through
their plug-and-play design. However, many existing methods rely solely on
hidden state magnitudes to determine activation, resulting in high
approximation errors and suboptimal inference accuracy. To address these
limitations, we propose WINA (Weight Informed Neuron Activation), a novel,
simple, and training-free sparse activation framework that jointly considers
hidden state magnitudes and the column-wise ell_2-norms of weight matrices.
We show that this leads to a sparsification strategy that obtains optimal
approximation error bounds with theoretical guarantees tighter than existing
techniques. Empirically, WINA also outperforms state-of-the-art methods (e.g.,
TEAL) by up to 2.94% in average performance at the same sparsity levels,
across a diverse set of LLM architectures and datasets. These results position
WINA as a new performance frontier for training-free sparse activation in LLM
inference, advancing training-free sparse activation methods and setting a
robust baseline for efficient inference. The source code is available at
https://github.com/microsoft/wina.Summary
AI-Generated Summary