Eine verfeinerte Analyse massiver Aktivierungen in großen Sprachmodellen

papers.abstract

Motiviert durch ihre Relevanz für das Training mit niedriger Präzision und Quantisierung, sind massive Aktivierungen in großen Sprachmodellen (LLMs) kürzlich zu einem Thema von Interesse geworden. Bestehende Analysen sind jedoch in ihrem Umfang begrenzt, und die Verallgemeinerbarkeit über verschiedene Architekturen hinweg ist unklar. Diese Arbeit trägt dazu bei, einige dieser Lücken zu schließen, indem sie eine Analyse von massiven Aktivierungen über eine breite Palette von LLMs durchführt, einschließlich sowohl GLU-basierter als auch nicht-GLU-basierter Architekturen. Unsere Ergebnisse stellen mehrere bisherige Annahmen in Frage, insbesondere: (1) Nicht alle massiven Aktivierungen sind schädlich, d.h. ihre Unterdrückung führt nicht zu einem Anstieg der Perplexität oder einem Einbruch der Leistung bei nachgelagerten Aufgaben; (2) Vorgeschlagene Minderungsstrategien wie Attention-KV-Bias sind modellspezifisch und in bestimmten Fällen unwirksam. Folglich untersuchen wir neuartige hybride Minderungsstrategien; insbesondere das Kombinieren von Target Variance Rescaling (TVR) mit Attention-KV-Bias oder Dynamic Tanh (DyT) gelingt es, die Minderung von massiven Aktivierungen mit der Beibehaltung der Modellleistung bei nachgelagerten Aufgaben in den von uns untersuchten Szenarien erfolgreich auszubalancieren. Unser Code ist verfügbar unter: https://github.com/bluorion-com/refine_massive_activations.

English

Motivated in part by their relevance for low-precision training and quantization, massive activations in large language models (LLMs) have recently emerged as a topic of interest. However, existing analyses are limited in scope, and generalizability across architectures is unclear. This paper helps address some of these gaps by conducting an analysis of massive activations across a broad range of LLMs, including both GLU-based and non-GLU-based architectures. Our findings challenge several prior assumptions, most importantly: (1) not all massive activations are detrimental, i.e. suppressing them does not lead to an explosion of perplexity or a collapse in downstream task performance; (2) proposed mitigation strategies such as Attention KV bias are model-specific and ineffective in certain cases. We consequently investigate novel hybrid mitigation strategies; in particular pairing Target Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT) successfully balances the mitigation of massive activations with preserved downstream model performance in the scenarios we investigated. Our code is available at: https://github.com/bluorion-com/refine_massive_activations.

Eine verfeinerte Analyse massiver Aktivierungen in großen Sprachmodellen

A Refined Analysis of Massive Activations in LLMs

papers.abstract

Support