Eine verfeinerte Analyse massiver Aktivierungen in großen Sprachmodellen
A Refined Analysis of Massive Activations in LLMs
March 28, 2025
Autoren: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra
cs.AI
Zusammenfassung
Motiviert durch ihre Relevanz für das Training mit niedriger Präzision und Quantisierung, sind massive Aktivierungen in großen Sprachmodellen (LLMs) kürzlich zu einem Thema von Interesse geworden. Bestehende Analysen sind jedoch in ihrem Umfang begrenzt, und die Verallgemeinerbarkeit über verschiedene Architekturen hinweg ist unklar. Diese Arbeit trägt dazu bei, einige dieser Lücken zu schließen, indem sie eine Analyse von massiven Aktivierungen über eine breite Palette von LLMs durchführt, einschließlich sowohl GLU-basierter als auch nicht-GLU-basierter Architekturen. Unsere Ergebnisse stellen mehrere bisherige Annahmen in Frage, insbesondere: (1) Nicht alle massiven Aktivierungen sind schädlich, d.h. ihre Unterdrückung führt nicht zu einem Anstieg der Perplexität oder einem Einbruch der Leistung bei nachgelagerten Aufgaben; (2) Vorgeschlagene Minderungsstrategien wie Attention-KV-Bias sind modellspezifisch und in bestimmten Fällen unwirksam. Folglich untersuchen wir neuartige hybride Minderungsstrategien; insbesondere das Kombinieren von Target Variance Rescaling (TVR) mit Attention-KV-Bias oder Dynamic Tanh (DyT) gelingt es, die Minderung von massiven Aktivierungen mit der Beibehaltung der Modellleistung bei nachgelagerten Aufgaben in den von uns untersuchten Szenarien erfolgreich auszubalancieren. Unser Code ist verfügbar unter: https://github.com/bluorion-com/refine_massive_activations.
English
Motivated in part by their relevance for low-precision training and
quantization, massive activations in large language models (LLMs) have recently
emerged as a topic of interest. However, existing analyses are limited in
scope, and generalizability across architectures is unclear. This paper helps
address some of these gaps by conducting an analysis of massive activations
across a broad range of LLMs, including both GLU-based and non-GLU-based
architectures. Our findings challenge several prior assumptions, most
importantly: (1) not all massive activations are detrimental, i.e. suppressing
them does not lead to an explosion of perplexity or a collapse in downstream
task performance; (2) proposed mitigation strategies such as Attention KV bias
are model-specific and ineffective in certain cases. We consequently
investigate novel hybrid mitigation strategies; in particular pairing Target
Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT)
successfully balances the mitigation of massive activations with preserved
downstream model performance in the scenarios we investigated. Our code is
available at: https://github.com/bluorion-com/refine_massive_activations.