NerVE: Dinamica Spettrale Non Lineare nelle Reti Feed-Forward dei LLM

Abstract

Introduciamo NerVE, un framework eigenspettrale unificato per comprendere come le reti feed-forward (FFN) nei grandi modelli linguistici (LLM) organizzano e regolano il flusso di informazioni nello spazio latente ad alta dimensionalità. Nonostante le FFN dominino il budget dei parametri, la loro dinamica in alta dimensionalità rimane poco compresa. NerVE colma questa lacuna tramite il tracciamento efficiente in termini di memoria delle dinamiche dello spettro degli autovalori, attraverso quattro metriche complementari: Entropia Spettrale (dispersione), Rapporto di Partecipazione (dimensionalità effettiva), Arricchimento Precoce degli Autovalori (distribuzione "top-heavy") e divergenza di Jensen-Shannon (spostamenti distribuzionali). La nostra intuizione fondamentale è che le non linearità delle FFN reiniettano varianza attraverso gli autovettori, governando fondamentalmente l'utilizzo delle dimensioni latenti, e che la geometria dell'ottimizzatore modula fortemente l'entità di questa reiniezione di varianza. Convalidiamo NerVE su diverse scale di modelli e configurazioni architetturali e di ottimizzatore, ciascuna delle quali plasma in modo univoco le dinamiche delle FFN: schemi di normalizzazione che controllano il flusso di varianza; geometrie dei pesi delle FFN che vincolano lo spazio latente; codifica posizionale e funzioni di attivazione che regolano il flusso informativo; e scelte dell'ottimizzatore che ridistribuiscono la capacità effettiva lungo la profondità. In tutti questi contesti, NerVE recupera costantemente firme spettrali stabili che si correlano con la capacità di generalizzazione del modello e rispondono in modo prevedibile alle scelte progettuali, generalizzando oltre l'architettura transformer a quelle come MLP-Mixer, fornendo spunti operativi per le scelte architetturali e di ottimizzatore che vanno oltre il metodo per tentativi ed errori.

English

We introduce NerVE, a unified eigenspectral framework for understanding how feed-forward networks (FFNs) in large language models (LLMs) organize and regulate information flow in high-dimensional latent space. Despite FFNs dominating the parameter budget, their high-dimensional dynamics remain poorly understood. NerVE addresses this gap through lightweight, memory-efficient tracking of eigenspectrum dynamics via four complementary metrics: Spectral Entropy (dispersion), Participation Ratio (effective dimensionality), Eigenvalue Early Enrichment (top-heaviness), and Jensen-Shannon divergence (distributional shifts). Our key insight is that FFN nonlinearities reinject variance across eigenmodes, fundamentally governing latent dimension utilization, and that optimizer geometry strongly modulates the extent of this variance reinjection. We validate NerVE across model scales, and diverse architectural and optimizer configurations, each uniquely shaping FFN dynamics: normalization schemes controlling variance flow; FFN weight geometries constraining latent space; positional encoding and activation functions regulating information flow; and optimizer choices redistributing effective capacity across depth. Across these settings, NerVE consistently recovers stable spectral signatures that correlate with model's generalization ability and respond predictably to design choices, generalizing beyond transformer to MLP-Mixer architectures, providing actionable insights for architectural and optimizer choices beyond trial-and-error.

NerVE: Dinamica Spettrale Non Lineare nelle Reti Feed-Forward dei LLM

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Abstract

Support