Leyes de Escalamiento Espectral en Modelos de Lenguaje: ¿Qué Tan Efectivamente Utilizan las Redes Feed-Forward su Espacio Latente?
Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?
October 1, 2025
Autores: Nandan Kumar Jha, Brandon Reagen
cs.AI
Resumen
A medida que los modelos de lenguaje a gran escala (LLMs) escalan, la pregunta no es solo cuán grandes se vuelven, sino cuánto de su capacidad se utiliza de manera efectiva. Las leyes de escalado existentes relacionan el tamaño del modelo con la pérdida, pero pasan por alto cómo los componentes aprovechan su espacio latente. Estudiamos las redes de alimentación directa (FFNs) y reformulamos la selección de ancho como un problema de utilización espectral. Utilizando un conjunto de diagnóstico ligero —Rango Duro (relación de participación), Rango Suave (rango de Shannon), Concentración Espectral y el índice compuesto de Utilización Espectral (SUI)— cuantificamos cuántas direcciones latentes se activan de manera significativa en las familias de modelos LLaMA, GPT-2 y nGPT. Nuestro hallazgo clave es una ley de escalado espectral asimétrica: el rango suave sigue una ley de potencia casi perfecta con el ancho de la FFN, mientras que el rango duro crece solo de manera sublineal y con alta varianza. Esta asimetría sugiere que ampliar las FFNs principalmente añade direcciones de baja energía en la cola, mientras que los subespacios de modos dominantes se saturan tempranamente. Además, en anchos mayores, la varianza colapsa aún más en un subespacio estrecho, dejando gran parte del espacio latente subutilizado. Estos resultados reformulan la selección del ancho de las FFNs como un equilibrio fundamentado entre la capacidad de la cola y la capacidad de los modos dominantes, ofreciendo una guía concreta para el diseño de LLMs eficientes en inferencia.
English
As large language models (LLMs) scale, the question is not only how large
they become, but how much of their capacity is effectively utilized. Existing
scaling laws relate model size to loss, yet overlook how components exploit
their latent space. We study feed-forward networks (FFNs) and recast width
selection as a spectral utilization problem. Using a lightweight diagnostic
suite -- Hard Rank (participation ratio), Soft Rank (Shannon rank), Spectral
Concentration, and the composite Spectral Utilization Index (SUI) -- we
quantify how many latent directions are meaningfully activated across LLaMA,
GPT-2, and nGPT families. Our key finding is an asymmetric spectral scaling
law: soft rank follows an almost perfect power law with FFN width, while hard
rank grows only sublinearly and with high variance. This asymmetry suggests
that widening FFNs mostly adds low-energy tail directions, while dominant-mode
subspaces saturate early. Moreover, at larger widths, variance further
collapses into a narrow subspace, leaving much of the latent space
under-utilized. These results recast FFN width selection as a principled
trade-off between tail capacity and dominant-mode capacity, offering concrete
guidance for inference-efficient LLM design.