NerVE: Dinâmica Não Linear do Espectro de Autovalores em Redes Feed-Forward de LLMs

Resumo

Apresentamos o NerVE, um framework eigenspectral unificado para compreender como as redes feed-forward (FFNs) em modelos de linguagem de grande escala (LLMs) organizam e regulam o fluxo de informação no espaço latente de alta dimensão. Apesar das FFNs dominarem o orçamento de parâmetros, a sua dinâmica de alta dimensão permanece pouco compreendida. O NerVE aborda esta lacuna através do rastreamento leve e eficiente em memória da dinâmica do eigenspectro via quatro métricas complementares: Entropia Espectral (dispersão), Razão de Participação (dimensionalidade efetiva), Enriquecimento Precoce de Autovalores (concentração nos maiores autovalores) e divergência de Jensen-Shannon (mudanças distribucionais). Nossa principal percepção é que as não linearidades das FFNs reinjetam variância através dos eigenmodes, governando fundamentalmente a utilização das dimensões latentes, e que a geometria do otimizador modula fortemente a extensão desta reinjeição de variância. Validamos o NerVE em várias escalas de modelos e diversas configurações arquitetónicas e de otimizadores, cada uma moldando de forma única a dinâmica das FFNs: esquemas de normalização controlando o fluxo de variância; geometrias dos pesos das FFNs restringindo o espaço latente; codificação posicional e funções de ativação regulando o fluxo de informação; e escolhas de otimizador redistribuindo a capacidade efetiva ao longo da profundidade. Através destes cenários, o NerVE recupera consistentemente assinaturas espectrais estáveis que se correlacionam com a capacidade de generalização do modelo e respondem de forma previsível a escolhas de design, generalizando além dos transformadores para arquiteturas MLP-Mixer, fornecendo insights acionáveis para escolhas arquitetónicas e de otimizador que vão além da tentativa e erro.

English

We introduce NerVE, a unified eigenspectral framework for understanding how feed-forward networks (FFNs) in large language models (LLMs) organize and regulate information flow in high-dimensional latent space. Despite FFNs dominating the parameter budget, their high-dimensional dynamics remain poorly understood. NerVE addresses this gap through lightweight, memory-efficient tracking of eigenspectrum dynamics via four complementary metrics: Spectral Entropy (dispersion), Participation Ratio (effective dimensionality), Eigenvalue Early Enrichment (top-heaviness), and Jensen-Shannon divergence (distributional shifts). Our key insight is that FFN nonlinearities reinject variance across eigenmodes, fundamentally governing latent dimension utilization, and that optimizer geometry strongly modulates the extent of this variance reinjection. We validate NerVE across model scales, and diverse architectural and optimizer configurations, each uniquely shaping FFN dynamics: normalization schemes controlling variance flow; FFN weight geometries constraining latent space; positional encoding and activation functions regulating information flow; and optimizer choices redistributing effective capacity across depth. Across these settings, NerVE consistently recovers stable spectral signatures that correlate with model's generalization ability and respond predictably to design choices, generalizing beyond transformer to MLP-Mixer architectures, providing actionable insights for architectural and optimizer choices beyond trial-and-error.

NerVE: Dinâmica Não Linear do Espectro de Autovalores em Redes Feed-Forward de LLMs

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Resumo

Support