ChatPaper.aiChatPaper

Leis de Escalonamento Espectral em Modelos de Linguagem: Quão Eficientemente as Redes Feed-Forward Utilizam Seu Espaço Latente?

Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?

October 1, 2025
Autores: Nandan Kumar Jha, Brandon Reagen
cs.AI

Resumo

À medida que os modelos de linguagem de grande escala (LLMs) aumentam em tamanho, a questão não é apenas o quão grandes eles se tornam, mas quanto de sua capacidade é efetivamente utilizada. As leis de escalonamento existentes relacionam o tamanho do modelo à perda, mas ignoram como os componentes exploram seu espaço latente. Estudamos redes feed-forward (FFNs) e reformulamos a seleção de largura como um problema de utilização espectral. Utilizando um conjunto de diagnósticos leve — Hard Rank (razão de participação), Soft Rank (rank de Shannon), Concentração Espectral e o índice composto de Utilização Espectral (SUI) — quantificamos quantas direções latentes são significativamente ativadas nas famílias LLaMA, GPT-2 e nGPT. Nossa principal descoberta é uma lei de escalonamento espectral assimétrica: o soft rank segue uma lei de potência quase perfeita com a largura da FFN, enquanto o hard rank cresce apenas de forma sublinear e com alta variância. Essa assimetria sugere que o aumento da largura das FFNs adiciona principalmente direções de baixa energia na cauda, enquanto os subespaços de modos dominantes saturam precocemente. Além disso, em larguras maiores, a variância colapsa ainda mais em um subespaço estreito, deixando grande parte do espaço latente subutilizado. Esses resultados reformulam a seleção de largura das FFNs como uma troca fundamentada entre capacidade na cauda e capacidade nos modos dominantes, oferecendo orientações concretas para o design de LLMs eficientes em inferência.
English
As large language models (LLMs) scale, the question is not only how large they become, but how much of their capacity is effectively utilized. Existing scaling laws relate model size to loss, yet overlook how components exploit their latent space. We study feed-forward networks (FFNs) and recast width selection as a spectral utilization problem. Using a lightweight diagnostic suite -- Hard Rank (participation ratio), Soft Rank (Shannon rank), Spectral Concentration, and the composite Spectral Utilization Index (SUI) -- we quantify how many latent directions are meaningfully activated across LLaMA, GPT-2, and nGPT families. Our key finding is an asymmetric spectral scaling law: soft rank follows an almost perfect power law with FFN width, while hard rank grows only sublinearly and with high variance. This asymmetry suggests that widening FFNs mostly adds low-energy tail directions, while dominant-mode subspaces saturate early. Moreover, at larger widths, variance further collapses into a narrow subspace, leaving much of the latent space under-utilized. These results recast FFN width selection as a principled trade-off between tail capacity and dominant-mode capacity, offering concrete guidance for inference-efficient LLM design.
PDF12October 3, 2025