ReLU's Wiederaufleben: Über die Entropieüberlastung in Normalisierungsfreien Großen Sprachmodellen

papers.abstract

LayerNorm ist eine entscheidende Komponente in modernen großen Sprachmodellen (LLMs) zur Stabilisierung des Trainings und zur Gewährleistung einer reibungslosen Optimierung. Es bringt jedoch signifikante Herausforderungen in Bezug auf mechanistische Interpretierbarkeit, Unterdrückung von Ausreißermerkmalen, treue Signalübertragung sowie Rechen- und Kommunikationskomplexität der privaten Inferenz mit sich. Diese Arbeit untersucht wünschenswerte Aktivierungsfunktionen in Normalisierungsfreien Dekodierer-Only LLMs. Im Gegensatz zur konventionellen Vorliebe für die GELU in transformerbasierten Modellen zeigen unsere empirischen Ergebnisse einen entgegengesetzten Trend - ReLU übertrifft die GELU signifikant in LayerNorm-freien Modellen und führt zu einer 8,2%igen Verbesserung der Perplexität. Wir entdecken ein Schlüsselproblem mit GELU, bei dem frühe Schichten eine entropische Überlastung erfahren, was zu einer Unterbeanspruchung der Repräsentationskapazität der Aufmerksamkeitsköpfe führt. Dies verdeutlicht, dass glattere Aktivierungen wie GELU für LayerNorm-freie Architekturen ungeeignet sind, während die geometrischen Eigenschaften von ReLU - Spezialisierung im Eingaberaum und intra-klassen Selektivität - zu verbesserten Lernprozessen und einer besseren Informationsretention in Abwesenheit von LayerNorm führen. Diese Studie bietet wichtige Erkenntnisse zur Optimierung von Transformer-Architekturen, bei denen LayerNorm signifikante Herausforderungen mit sich bringt.

English

LayerNorm is a critical component in modern large language models (LLMs) for stabilizing training and ensuring smooth optimization. However, it introduces significant challenges in mechanistic interpretability, outlier feature suppression, faithful signal propagation, and computational and communication complexity of private inference. This work explores desirable activation functions in normalization-free decoder-only LLMs. Contrary to the conventional preference for the GELU in transformer-based models, our empirical findings demonstrate an {\em opposite trend} -- ReLU significantly outperforms GELU in LayerNorm-free models, leading to an {\bf 8.2\%} perplexity improvement. We discover a key issue with GELU, where early layers experience entropic overload, leading to the under-utilization of the representational capacity of attention heads. This highlights that smoother activations like GELU are {\em ill-suited} for LayerNorm-free architectures, whereas ReLU's geometrical properties -- specialization in input space and intra-class selectivity -- lead to improved learning dynamics and better information retention in the absence of LayerNorm. This study offers key insights for optimizing transformer architectures where LayerNorm introduces significant challenges.

ReLU's Wiederaufleben: Über die Entropieüberlastung in Normalisierungsfreien Großen Sprachmodellen

ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models

papers.abstract

Support