Spectrale schaalwetten in taalmodelen: Hoe effectief gebruiken feedforward-netwerken hun latente ruimte?
Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?
October 1, 2025
Auteurs: Nandan Kumar Jha, Brandon Reagen
cs.AI
Samenvatting
Naarmate grote taalmmodellen (LLMs) schalen, is de vraag niet alleen hoe groot ze worden, maar ook hoeveel van hun capaciteit effectief wordt benut. Bestaande schaalwetten relateren modelgrootte aan verlies, maar negeren hoe componenten hun latente ruimte benutten. Wij bestuderen feed-forward netwerken (FFNs) en herformuleren breedtekeuze als een spectrale benuttingsprobleem. Met behulp van een lichtgewicht diagnostische suite -- Hard Rank (participatieratio), Soft Rank (Shannon rank), Spectrale Concentratie, en de samengestelde Spectrale Benuttingsindex (SUI) -- kwantificeren we hoeveel latente richtingen betekenisvol worden geactiveerd in de LLaMA, GPT-2 en nGPT families. Onze belangrijkste bevinding is een asymmetrische spectrale schaalwet: soft rank volgt een bijna perfecte machtswet met FFN-breedte, terwijl hard rank slechts sublineair groeit en met hoge variantie. Deze asymmetrie suggereert dat het verbreden van FFNs vooral richtingen met lage energie toevoegt, terwijl dominante-modus deelruimtes vroeg verzadigen. Bovendien, bij grotere breedtes, stort de variantie verder ineen in een smalle deelruimte, waardoor veel van de latente ruimte onderbenut blijft. Deze resultaten herformuleren FFN-breedtekeuze als een principieel compromis tussen staartcapaciteit en dominante-modus capaciteit, wat concrete richtlijnen biedt voor inferentie-efficiënt LLM-ontwerp.
English
As large language models (LLMs) scale, the question is not only how large
they become, but how much of their capacity is effectively utilized. Existing
scaling laws relate model size to loss, yet overlook how components exploit
their latent space. We study feed-forward networks (FFNs) and recast width
selection as a spectral utilization problem. Using a lightweight diagnostic
suite -- Hard Rank (participation ratio), Soft Rank (Shannon rank), Spectral
Concentration, and the composite Spectral Utilization Index (SUI) -- we
quantify how many latent directions are meaningfully activated across LLaMA,
GPT-2, and nGPT families. Our key finding is an asymmetric spectral scaling
law: soft rank follows an almost perfect power law with FFN width, while hard
rank grows only sublinearly and with high variance. This asymmetry suggests
that widening FFNs mostly adds low-energy tail directions, while dominant-mode
subspaces saturate early. Moreover, at larger widths, variance further
collapses into a narrow subspace, leaving much of the latent space
under-utilized. These results recast FFN width selection as a principled
trade-off between tail capacity and dominant-mode capacity, offering concrete
guidance for inference-efficient LLM design.