Spektrale Skalierungsgesetze in Sprachmodellen: Wie effektiv nutzen Feed-Forward-Netzwerke ihren latenten Raum?
Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?
October 1, 2025
papers.authors: Nandan Kumar Jha, Brandon Reagen
cs.AI
papers.abstract
Während große Sprachmodelle (LLMs) an Größe zunehmen, stellt sich nicht nur die Frage, wie groß sie werden, sondern auch, wie viel ihrer Kapazität effektiv genutzt wird. Bisherige Skalierungsgesetze beziehen die Modellgröße auf den Verlust, übersehen jedoch, wie Komponenten ihren latenten Raum nutzen. Wir untersuchen Feed-Forward-Netzwerke (FFNs) und formulieren die Breitenauswahl als Problem der spektralen Nutzung. Mit einem leichtgewichtigen Diagnosetool – Hard Rank (Partizipationsverhältnis), Soft Rank (Shannon-Rang), Spektrale Konzentration und dem zusammengesetzten Spektralen Nutzungsindex (SUI) – quantifizieren wir, wie viele latente Richtungen in den Modellfamilien LLaMA, GPT-2 und nGPT sinnvoll aktiviert werden. Unsere zentrale Erkenntnis ist ein asymmetrisches spektrales Skalierungsgesetz: Der Soft Rank folgt einem nahezu perfekten Potenzgesetz in Bezug auf die FFN-Breite, während der Hard Rank nur sublinear und mit hoher Varianz wächst. Diese Asymmetrie deutet darauf hin, dass die Erweiterung von FFNs hauptsächlich Richtungen mit niedriger Energie hinzufügt, während die dominanten Modus-Unterräume früh gesättigt werden. Darüber hinaus kollabiert bei größeren Breiten die Varianz weiter in einen engen Unterraum, wodurch ein Großteil des latenten Raums ungenutzt bleibt. Diese Ergebnisse formulieren die FFN-Breitenauswahl als prinzipiellen Kompromiss zwischen Kapazität im Randbereich und Kapazität im dominanten Modus und bieten konkrete Leitlinien für inferenzeffizientes LLM-Design.
English
As large language models (LLMs) scale, the question is not only how large
they become, but how much of their capacity is effectively utilized. Existing
scaling laws relate model size to loss, yet overlook how components exploit
their latent space. We study feed-forward networks (FFNs) and recast width
selection as a spectral utilization problem. Using a lightweight diagnostic
suite -- Hard Rank (participation ratio), Soft Rank (Shannon rank), Spectral
Concentration, and the composite Spectral Utilization Index (SUI) -- we
quantify how many latent directions are meaningfully activated across LLaMA,
GPT-2, and nGPT families. Our key finding is an asymmetric spectral scaling
law: soft rank follows an almost perfect power law with FFN width, while hard
rank grows only sublinearly and with high variance. This asymmetry suggests
that widening FFNs mostly adds low-energy tail directions, while dominant-mode
subspaces saturate early. Moreover, at larger widths, variance further
collapses into a narrow subspace, leaving much of the latent space
under-utilized. These results recast FFN width selection as a principled
trade-off between tail capacity and dominant-mode capacity, offering concrete
guidance for inference-efficient LLM design.