Lois d'échelle spectrales dans les modèles de langage : Dans quelle mesure les réseaux feed-forward exploitent-ils efficacement leur espace latent ?
Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?
October 1, 2025
papers.authors: Nandan Kumar Jha, Brandon Reagen
cs.AI
papers.abstract
Alors que les modèles de langage à grande échelle (LLM) augmentent en taille, la question n'est pas seulement de savoir à quel point ils deviennent grands, mais aussi quelle partie de leur capacité est effectivement utilisée. Les lois d'échelle existantes relient la taille du modèle à la perte, mais négligent la manière dont les composants exploitent leur espace latent. Nous étudions les réseaux feed-forward (FFN) et reformulons la sélection de la largeur comme un problème d'utilisation spectrale. En utilisant une suite de diagnostics légers -- Hard Rank (ratio de participation), Soft Rank (rang de Shannon), Concentration Spectrale, et l'indice composite d'Utilisation Spectrale (SUI) -- nous quantifions combien de directions latentes sont activées de manière significative dans les familles de modèles LLaMA, GPT-2 et nGPT. Notre découverte clé est une loi d'échelle spectrale asymétrique : le soft rank suit une loi de puissance presque parfaite avec la largeur des FFN, tandis que le hard rank ne croît que de manière sous-linéaire et avec une forte variance. Cette asymétrie suggère que l'élargissement des FFN ajoute principalement des directions de faible énergie en queue de distribution, tandis que les sous-espaces des modes dominants se saturent tôt. De plus, à des largeurs plus importantes, la variance se réduit encore davantage dans un sous-espace étroit, laissant une grande partie de l'espace latent sous-utilisée. Ces résultats reformulent la sélection de la largeur des FFN comme un compromis raisonné entre la capacité en queue de distribution et la capacité des modes dominants, offrant des orientations concrètes pour la conception de LLM efficaces en inférence.
English
As large language models (LLMs) scale, the question is not only how large
they become, but how much of their capacity is effectively utilized. Existing
scaling laws relate model size to loss, yet overlook how components exploit
their latent space. We study feed-forward networks (FFNs) and recast width
selection as a spectral utilization problem. Using a lightweight diagnostic
suite -- Hard Rank (participation ratio), Soft Rank (Shannon rank), Spectral
Concentration, and the composite Spectral Utilization Index (SUI) -- we
quantify how many latent directions are meaningfully activated across LLaMA,
GPT-2, and nGPT families. Our key finding is an asymmetric spectral scaling
law: soft rank follows an almost perfect power law with FFN width, while hard
rank grows only sublinearly and with high variance. This asymmetry suggests
that widening FFNs mostly adds low-energy tail directions, while dominant-mode
subspaces saturate early. Moreover, at larger widths, variance further
collapses into a narrow subspace, leaving much of the latent space
under-utilized. These results recast FFN width selection as a principled
trade-off between tail capacity and dominant-mode capacity, offering concrete
guidance for inference-efficient LLM design.