Spektrale Skalierungsgesetze in Sprachmodellen: Wie effektiv nutzen Feed-Forward-Netzwerke ihren latenten Raum?

papers.abstract

Während große Sprachmodelle (LLMs) an Größe zunehmen, stellt sich nicht nur die Frage, wie groß sie werden, sondern auch, wie viel ihrer Kapazität effektiv genutzt wird. Bisherige Skalierungsgesetze beziehen die Modellgröße auf den Verlust, übersehen jedoch, wie Komponenten ihren latenten Raum nutzen. Wir untersuchen Feed-Forward-Netzwerke (FFNs) und formulieren die Breitenauswahl als Problem der spektralen Nutzung. Mit einem leichtgewichtigen Diagnosetool – Hard Rank (Partizipationsverhältnis), Soft Rank (Shannon-Rang), Spektrale Konzentration und dem zusammengesetzten Spektralen Nutzungsindex (SUI) – quantifizieren wir, wie viele latente Richtungen in den Modellfamilien LLaMA, GPT-2 und nGPT sinnvoll aktiviert werden. Unsere zentrale Erkenntnis ist ein asymmetrisches spektrales Skalierungsgesetz: Der Soft Rank folgt einem nahezu perfekten Potenzgesetz in Bezug auf die FFN-Breite, während der Hard Rank nur sublinear und mit hoher Varianz wächst. Diese Asymmetrie deutet darauf hin, dass die Erweiterung von FFNs hauptsächlich Richtungen mit niedriger Energie hinzufügt, während die dominanten Modus-Unterräume früh gesättigt werden. Darüber hinaus kollabiert bei größeren Breiten die Varianz weiter in einen engen Unterraum, wodurch ein Großteil des latenten Raums ungenutzt bleibt. Diese Ergebnisse formulieren die FFN-Breitenauswahl als prinzipiellen Kompromiss zwischen Kapazität im Randbereich und Kapazität im dominanten Modus und bieten konkrete Leitlinien für inferenzeffizientes LLM-Design.

English

As large language models (LLMs) scale, the question is not only how large they become, but how much of their capacity is effectively utilized. Existing scaling laws relate model size to loss, yet overlook how components exploit their latent space. We study feed-forward networks (FFNs) and recast width selection as a spectral utilization problem. Using a lightweight diagnostic suite -- Hard Rank (participation ratio), Soft Rank (Shannon rank), Spectral Concentration, and the composite Spectral Utilization Index (SUI) -- we quantify how many latent directions are meaningfully activated across LLaMA, GPT-2, and nGPT families. Our key finding is an asymmetric spectral scaling law: soft rank follows an almost perfect power law with FFN width, while hard rank grows only sublinearly and with high variance. This asymmetry suggests that widening FFNs mostly adds low-energy tail directions, while dominant-mode subspaces saturate early. Moreover, at larger widths, variance further collapses into a narrow subspace, leaving much of the latent space under-utilized. These results recast FFN width selection as a principled trade-off between tail capacity and dominant-mode capacity, offering concrete guidance for inference-efficient LLM design.

Spektrale Skalierungsgesetze in Sprachmodellen: Wie effektiv nutzen Feed-Forward-Netzwerke ihren latenten Raum?

Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?

papers.abstract

Support