NerVE: Нелинейная динамика собственного спектра в прямопроходных сетях больших языковых моделей

Аннотация

Мы представляем NerVE — унифицированный спектральный фреймворк для анализа того, как прямые сети (FFN) в больших языковых моделях (LLM) организуют и регулируют поток информации в высокоразмерном латентном пространстве. Несмотря на то, что FFN составляют основную долю параметров, их высокоразмерная динамика остаётся слабо изученной. NerVE восполняет этот пробел за счёт лёгкого и эффективного по памяти отслеживания динамики спектра через четыре взаимодополняющих метрики: спектральная энтропия (дисперсия), коэффициент участия (эффективная размерность), раннее обогащение собственными значениями (топ-тяжесть) и дивергенция Дженсена-Шеннона (распределительные сдвиги). Наше ключевое наблюдение заключается в том, что нелинейности FFN перераспределяют дисперсию между собственными модами, фундаментально управляя использованием латентных измерений, а геометрия оптимизатора существенно модулирует степень этого перераспределения. Мы проверяем NerVE на моделях разного масштаба и в разнообразных архитектурных конфигурациях и настройках оптимизатора, каждая из которых уникально влияет на динамику FFN: схемы нормализации контролируют поток дисперсии; геометрия весов FFN ограничивает латентное пространство; позиционные кодировки и функции активации регулируют поток информации; а выбор оптимизатора перераспределяет эффективную ёмкость по глубине сети. Во всех этих условиях NerVE стабильно выявляет спектральные сигнатуры, которые коррелируют со способностью модели к обобщению и предсказуемо реагируют на выбор проектных решений, обобщаясь за пределы трансформеров на архитектуры MLP-Mixer и предоставляя практические инсайты для выбора архитектуры и оптимизатора, выходящие за рамки метода проб и ошибок.

English

We introduce NerVE, a unified eigenspectral framework for understanding how feed-forward networks (FFNs) in large language models (LLMs) organize and regulate information flow in high-dimensional latent space. Despite FFNs dominating the parameter budget, their high-dimensional dynamics remain poorly understood. NerVE addresses this gap through lightweight, memory-efficient tracking of eigenspectrum dynamics via four complementary metrics: Spectral Entropy (dispersion), Participation Ratio (effective dimensionality), Eigenvalue Early Enrichment (top-heaviness), and Jensen-Shannon divergence (distributional shifts). Our key insight is that FFN nonlinearities reinject variance across eigenmodes, fundamentally governing latent dimension utilization, and that optimizer geometry strongly modulates the extent of this variance reinjection. We validate NerVE across model scales, and diverse architectural and optimizer configurations, each uniquely shaping FFN dynamics: normalization schemes controlling variance flow; FFN weight geometries constraining latent space; positional encoding and activation functions regulating information flow; and optimizer choices redistributing effective capacity across depth. Across these settings, NerVE consistently recovers stable spectral signatures that correlate with model's generalization ability and respond predictably to design choices, generalizing beyond transformer to MLP-Mixer architectures, providing actionable insights for architectural and optimizer choices beyond trial-and-error.

NerVE: Нелинейная динамика собственного спектра в прямопроходных сетях больших языковых моделей

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Аннотация

Support