NerVE : Dynamique non linéaire du spectre propre dans les réseaux feed-forward des grands modèles de langage

Résumé

Nous présentons NerVE, un cadre eigenspectral unifié pour comprendre comment les réseaux feed-forward (FFN) dans les grands modèles de langage (LLM) organisent et régulent le flux d'information dans l'espace latent de haute dimension. Bien que les FFN dominent le budget de paramètres, leur dynamique en haute dimension reste mal comprise. NerVE comble cette lacune par un suivi léger et économe en mémoire de la dynamique du spectre propre via quatre métriques complémentaires : l'Entropie Spectrale (dispersion), le Ratio de Participation (dimensionalité effective), l'Enrichissement Précoce des Valeurs Propres (prédominance des valeurs hautes) et la divergence de Jensen-Shannon (changements distributionnels). Notre intuition clé est que les non-linéarités des FFN réinjectent de la variance à travers les modes propres, gouvernant fondamentalement l'utilisation des dimensions latentes, et que la géométrie de l'optimiseur module fortement l'ampleur de cette réinjection de variance. Nous validons NerVE à différentes échelles de modèles, et pour diverses configurations architecturales et d'optimiseurs, chacune façonnant de manière unique la dynamique des FFN : les schémas de normalisation contrôlant le flux de variance ; les géométries des poids des FFN contraignant l'espace latent ; l'encodage positionnel et les fonctions d'activation régulant le flux d'information ; et les choix d'optimiseur redistribuant la capacité effective selon la profondeur. Dans tous ces contextes, NerVE retrouve systématiquement des signatures spectrales stables qui corrèlent avec la capacité de généralisation du modèle et répondent de manière prévisible aux choix de conception, généralisant au-delà des transformers aux architectures MLP-Mixer, fournissant ainsi des insights actionnables pour les choix architecturaux et d'optimisation au-delà de la simple méthode essai-erreur.

English

We introduce NerVE, a unified eigenspectral framework for understanding how feed-forward networks (FFNs) in large language models (LLMs) organize and regulate information flow in high-dimensional latent space. Despite FFNs dominating the parameter budget, their high-dimensional dynamics remain poorly understood. NerVE addresses this gap through lightweight, memory-efficient tracking of eigenspectrum dynamics via four complementary metrics: Spectral Entropy (dispersion), Participation Ratio (effective dimensionality), Eigenvalue Early Enrichment (top-heaviness), and Jensen-Shannon divergence (distributional shifts). Our key insight is that FFN nonlinearities reinject variance across eigenmodes, fundamentally governing latent dimension utilization, and that optimizer geometry strongly modulates the extent of this variance reinjection. We validate NerVE across model scales, and diverse architectural and optimizer configurations, each uniquely shaping FFN dynamics: normalization schemes controlling variance flow; FFN weight geometries constraining latent space; positional encoding and activation functions regulating information flow; and optimizer choices redistributing effective capacity across depth. Across these settings, NerVE consistently recovers stable spectral signatures that correlate with model's generalization ability and respond predictably to design choices, generalizing beyond transformer to MLP-Mixer architectures, providing actionable insights for architectural and optimizer choices beyond trial-and-error.

NerVE : Dynamique non linéaire du spectre propre dans les réseaux feed-forward des grands modèles de langage

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Résumé

Support