NerVE: Nichtlineare Eigenwertspektren-Dynamik in Feed-Forward-Netzen von LLMs

Zusammenfassung

Wir stellen NerVE vor, einen vereinheitlichten Eigenfrequenzrahmen, um zu verstehen, wie Feed-Forward-Netzwerke (FFNs) in großen Sprachmodellen (LLMs) den Informationsfluss im hochdimensionalen latenten Raum organisieren und regulieren. Obwohl FFNs den Großteil des Parameterbudgets ausmachen, sind ihre hochdimensionalen Dynamiken nach wie vor wenig verstanden. NerVE schließt diese Lücke durch eine ressourcenschonende, speichereffiziente Verfolgung der Eigenfrequenzdynamik mittels vier komplementärer Metriken: Spektrale Entropie (Dispersion), Partizipationsverhältnis (effektive Dimensionalität), frühe Eigenwert-Anreicherung (Top-Lastigkeit) und Jensen-Shannon-Divergenz (Verteilungsverschiebungen). Unsere zentrale Erkenntnis ist, dass FFN-Nichtlinearitäten Varianz über Eigenmoden hinweg zurückführen und dadurch grundlegend die Nutzung latenter Dimensionen steuern, und dass die Optimierergeometrie das Ausmaß dieser Varianzrückführung stark moduliert. Wir validieren NerVE über verschiedene Modellgrößen sowie diverse architektonische und Optimierer-Konfigurationen hinweg, die jeweils auf einzigartige Weise die FFN-Dynamik prägen: Normalisierungsschemata kontrollieren den Varianzfluss; FFN-Gewichtsgeometrien beschränken den latenten Raum; positionsbezogene Kodierung und Aktivierungsfunktionen regulieren den Informationsfluss; und Optimierer-Wahlentscheidungen verteilen die effektive Kapazität über die Tiefe hinweg neu. In all diesen Konfigurationen identifiziert NerVE konsistent stabile spektrale Signaturen, die mit der Generalisierungsfähigkeit des Modells korrelieren und vorhersagbar auf Designentscheidungen reagieren. Der Rahmen verallgemeinert über Transformer-Architekturen hinaus auch auf MLP-Mixer-Architekturen und liefert damit umsetzbare Erkenntnisse für architektonische und Optimierer-Entscheidungen jenseits von Trial-and-Error.

English

We introduce NerVE, a unified eigenspectral framework for understanding how feed-forward networks (FFNs) in large language models (LLMs) organize and regulate information flow in high-dimensional latent space. Despite FFNs dominating the parameter budget, their high-dimensional dynamics remain poorly understood. NerVE addresses this gap through lightweight, memory-efficient tracking of eigenspectrum dynamics via four complementary metrics: Spectral Entropy (dispersion), Participation Ratio (effective dimensionality), Eigenvalue Early Enrichment (top-heaviness), and Jensen-Shannon divergence (distributional shifts). Our key insight is that FFN nonlinearities reinject variance across eigenmodes, fundamentally governing latent dimension utilization, and that optimizer geometry strongly modulates the extent of this variance reinjection. We validate NerVE across model scales, and diverse architectural and optimizer configurations, each uniquely shaping FFN dynamics: normalization schemes controlling variance flow; FFN weight geometries constraining latent space; positional encoding and activation functions regulating information flow; and optimizer choices redistributing effective capacity across depth. Across these settings, NerVE consistently recovers stable spectral signatures that correlate with model's generalization ability and respond predictably to design choices, generalizing beyond transformer to MLP-Mixer architectures, providing actionable insights for architectural and optimizer choices beyond trial-and-error.

NerVE: Nichtlineare Eigenwertspektren-Dynamik in Feed-Forward-Netzen von LLMs

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Zusammenfassung

Support