ReLU's Wiederaufleben: Über die Entropieüberlastung in Normalisierungsfreien Großen Sprachmodellen
ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models
October 12, 2024
Autoren: Nandan Kumar Jha, Brandon Reagen
cs.AI
Zusammenfassung
LayerNorm ist eine entscheidende Komponente in modernen großen Sprachmodellen (LLMs) zur Stabilisierung des Trainings und zur Gewährleistung einer reibungslosen Optimierung. Es bringt jedoch signifikante Herausforderungen in Bezug auf mechanistische Interpretierbarkeit, Unterdrückung von Ausreißermerkmalen, treue Signalübertragung sowie Rechen- und Kommunikationskomplexität der privaten Inferenz mit sich. Diese Arbeit untersucht wünschenswerte Aktivierungsfunktionen in Normalisierungsfreien Dekodierer-Only LLMs. Im Gegensatz zur konventionellen Vorliebe für die GELU in transformerbasierten Modellen zeigen unsere empirischen Ergebnisse einen entgegengesetzten Trend - ReLU übertrifft die GELU signifikant in LayerNorm-freien Modellen und führt zu einer 8,2%igen Verbesserung der Perplexität. Wir entdecken ein Schlüsselproblem mit GELU, bei dem frühe Schichten eine entropische Überlastung erfahren, was zu einer Unterbeanspruchung der Repräsentationskapazität der Aufmerksamkeitsköpfe führt. Dies verdeutlicht, dass glattere Aktivierungen wie GELU für LayerNorm-freie Architekturen ungeeignet sind, während die geometrischen Eigenschaften von ReLU - Spezialisierung im Eingaberaum und intra-klassen Selektivität - zu verbesserten Lernprozessen und einer besseren Informationsretention in Abwesenheit von LayerNorm führen. Diese Studie bietet wichtige Erkenntnisse zur Optimierung von Transformer-Architekturen, bei denen LayerNorm signifikante Herausforderungen mit sich bringt.
English
LayerNorm is a critical component in modern large language models (LLMs) for
stabilizing training and ensuring smooth optimization. However, it introduces
significant challenges in mechanistic interpretability, outlier feature
suppression, faithful signal propagation, and computational and communication
complexity of private inference. This work explores desirable activation
functions in normalization-free decoder-only LLMs. Contrary to the conventional
preference for the GELU in transformer-based models, our empirical findings
demonstrate an {\em opposite trend} -- ReLU significantly outperforms GELU in
LayerNorm-free models, leading to an {\bf 8.2\%} perplexity improvement. We
discover a key issue with GELU, where early layers experience entropic
overload, leading to the under-utilization of the representational capacity of
attention heads. This highlights that smoother activations like GELU are {\em
ill-suited} for LayerNorm-free architectures, whereas ReLU's geometrical
properties -- specialization in input space and intra-class selectivity -- lead
to improved learning dynamics and better information retention in the absence
of LayerNorm. This study offers key insights for optimizing transformer
architectures where LayerNorm introduces significant challenges.Summary
AI-Generated Summary