Leggi di Scaling Spettrale nei Modelli Linguistici: Quanto Efficacemente le Reti Feed-Forward Utilizzano il Loro Spazio Latente?

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) si espandono, la questione non è solo quanto diventino grandi, ma quanto della loro capacità venga effettivamente utilizzata. Le leggi di scalatura esistenti correlano la dimensione del modello alla perdita, ma trascurano come i componenti sfruttino il loro spazio latente. Studiamo le reti feed-forward (FFN) e riformuliamo la selezione della larghezza come un problema di utilizzo spettrale. Utilizzando una suite diagnostica leggera -- Hard Rank (rapporto di partecipazione), Soft Rank (rango di Shannon), Concentrazione Spettrale e l'indice composito di Utilizzo Spettrale (SUI) -- quantifichiamo quante direzioni latenti vengono attivate in modo significativo nelle famiglie di modelli LLaMA, GPT-2 e nGPT. La nostra scoperta chiave è una legge di scalatura spettrale asimmetrica: il soft rank segue una legge di potenza quasi perfetta con la larghezza delle FFN, mentre l'hard rank cresce solo in modo sublineare e con alta varianza. Questa asimmetria suggerisce che l'ampliamento delle FFN aggiunge principalmente direzioni a bassa energia nella coda, mentre i sottospazi dei modi dominanti si saturano precocemente. Inoltre, a larghezze maggiori, la varianza collassa ulteriormente in un sottospazio ristretto, lasciando gran parte dello spazio latente sottoutilizzato. Questi risultati riformulano la selezione della larghezza delle FFN come un compromesso strutturato tra capacità della coda e capacità dei modi dominanti, offrendo una guida concreta per la progettazione di LLM efficienti nell'inferenza.

English

As large language models (LLMs) scale, the question is not only how large they become, but how much of their capacity is effectively utilized. Existing scaling laws relate model size to loss, yet overlook how components exploit their latent space. We study feed-forward networks (FFNs) and recast width selection as a spectral utilization problem. Using a lightweight diagnostic suite -- Hard Rank (participation ratio), Soft Rank (Shannon rank), Spectral Concentration, and the composite Spectral Utilization Index (SUI) -- we quantify how many latent directions are meaningfully activated across LLaMA, GPT-2, and nGPT families. Our key finding is an asymmetric spectral scaling law: soft rank follows an almost perfect power law with FFN width, while hard rank grows only sublinearly and with high variance. This asymmetry suggests that widening FFNs mostly adds low-energy tail directions, while dominant-mode subspaces saturate early. Moreover, at larger widths, variance further collapses into a narrow subspace, leaving much of the latent space under-utilized. These results recast FFN width selection as a principled trade-off between tail capacity and dominant-mode capacity, offering concrete guidance for inference-efficient LLM design.

Leggi di Scaling Spettrale nei Modelli Linguistici: Quanto Efficacemente le Reti Feed-Forward Utilizzano il Loro Spazio Latente?

Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?

Abstract

Support