Спектральные законы масштабирования в языковых моделях: Насколько эффективно прямые сети используют свое латентное пространство?

Аннотация

По мере масштабирования больших языковых моделей (LLM) возникает вопрос не только о том, насколько большими они становятся, но и о том, насколько эффективно используется их ёмкость. Существующие законы масштабирования связывают размер модели с потерей, однако упускают из виду, как компоненты используют своё латентное пространство. Мы исследуем прямые нейронные сети (FFN) и переосмысливаем выбор ширины как проблему спектрального использования. Используя лёгкий диагностический набор — Hard Rank (коэффициент участия), Soft Rank (ранг Шеннона), Спектральная концентрация и составной Индекс спектрального использования (SUI) — мы количественно оцениваем, сколько латентных направлений значимо активируется в семействах моделей LLaMA, GPT-2 и nGPT. Наше ключевое открытие — асимметричный закон спектрального масштабирования: мягкий ранг следует почти идеальному степенному закону в зависимости от ширины FFN, в то время как жёсткий ранг растёт лишь сублинейно и с высокой дисперсией. Эта асимметрия предполагает, что увеличение ширины FFN в основном добавляет направления с низкой энергией в хвосте распределения, в то время как подпространства доминирующих мод насыщаются рано. Более того, при больших ширинах дисперсия дополнительно сжимается в узкое подпространство, оставляя большую часть латентного пространства неиспользованной. Эти результаты переосмысливают выбор ширины FFN как принципиальный компромисс между ёмкостью хвоста и ёмкостью доминирующих мод, предлагая конкретные рекомендации для проектирования LLM с эффективным выводом.

English

As large language models (LLMs) scale, the question is not only how large they become, but how much of their capacity is effectively utilized. Existing scaling laws relate model size to loss, yet overlook how components exploit their latent space. We study feed-forward networks (FFNs) and recast width selection as a spectral utilization problem. Using a lightweight diagnostic suite -- Hard Rank (participation ratio), Soft Rank (Shannon rank), Spectral Concentration, and the composite Spectral Utilization Index (SUI) -- we quantify how many latent directions are meaningfully activated across LLaMA, GPT-2, and nGPT families. Our key finding is an asymmetric spectral scaling law: soft rank follows an almost perfect power law with FFN width, while hard rank grows only sublinearly and with high variance. This asymmetry suggests that widening FFNs mostly adds low-energy tail directions, while dominant-mode subspaces saturate early. Moreover, at larger widths, variance further collapses into a narrow subspace, leaving much of the latent space under-utilized. These results recast FFN width selection as a principled trade-off between tail capacity and dominant-mode capacity, offering concrete guidance for inference-efficient LLM design.

Спектральные законы масштабирования в языковых моделях: Насколько эффективно прямые сети используют свое латентное пространство?

Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?

Аннотация

Support