NerVE: Dinámica No Lineal del Espectro de Autovalores en las Redes de Alimentación Directa de los LLM

Resumen

Presentamos NerVE, un marco unificado de eigenspectro para comprender cómo las redes neuronales feed-forward (FFN) en los modelos de lenguaje a gran escala (LLM) organizan y regulan el flujo de información en el espacio latente de alta dimensión. A pesar de que las FFN dominan el presupuesto de parámetros, su dinámica de alta dimensión sigue siendo poco comprendida. NerVE aborda esta brecha mediante el seguimiento ligero y eficiente en memoria de la dinámica del eigenspectro a través de cuatro métricas complementarias: Entropía Espectral (dispersión), Ratio de Participación (dimensionalidad efectiva), Enriquecimiento Temprano de Autovalores (dominancia de los modos principales) y divergencia de Jensen-Shannon (cambios distribucionales). Nuestra idea clave es que las no linealidades de las FFN reinyectan varianza a través de los eigenmodos, gobernando fundamentalmente la utilización de las dimensiones latentes, y que la geometría del optimizador modula fuertemente el grado de esta reinyección de varianza. Validamos NerVE a través de diferentes escalas de modelos, y diversas configuraciones arquitectónicas y de optimizadores, cada una dando forma única a la dinámica de las FFN: los esquemas de normalización controlan el flujo de varianza; las geometrías de los pesos de las FFN restringen el espacio latente; la codificación posicional y las funciones de activación regulan el flujo de información; y las elecciones del optimizador redistribuyen la capacidad efectiva a lo largo de la profundidad. En todos estos escenarios, NerVE recupera consistentemente firmas espectrales estables que se correlacionan con la capacidad de generalización del modelo y responden de manera predecible a las decisiones de diseño, generalizándose más allá del transformer a arquitecturas MLP-Mixer, proporcionando insights prácticos para las elecciones arquitectónicas y de optimizador más allá del ensayo y error.

English

We introduce NerVE, a unified eigenspectral framework for understanding how feed-forward networks (FFNs) in large language models (LLMs) organize and regulate information flow in high-dimensional latent space. Despite FFNs dominating the parameter budget, their high-dimensional dynamics remain poorly understood. NerVE addresses this gap through lightweight, memory-efficient tracking of eigenspectrum dynamics via four complementary metrics: Spectral Entropy (dispersion), Participation Ratio (effective dimensionality), Eigenvalue Early Enrichment (top-heaviness), and Jensen-Shannon divergence (distributional shifts). Our key insight is that FFN nonlinearities reinject variance across eigenmodes, fundamentally governing latent dimension utilization, and that optimizer geometry strongly modulates the extent of this variance reinjection. We validate NerVE across model scales, and diverse architectural and optimizer configurations, each uniquely shaping FFN dynamics: normalization schemes controlling variance flow; FFN weight geometries constraining latent space; positional encoding and activation functions regulating information flow; and optimizer choices redistributing effective capacity across depth. Across these settings, NerVE consistently recovers stable spectral signatures that correlate with model's generalization ability and respond predictably to design choices, generalizing beyond transformer to MLP-Mixer architectures, providing actionable insights for architectural and optimizer choices beyond trial-and-error.

NerVE: Dinámica No Lineal del Espectro de Autovalores en las Redes de Alimentación Directa de los LLM

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Resumen

Support