Leyes de Escalamiento Espectral en Modelos de Lenguaje: ¿Qué Tan Efectivamente Utilizan las Redes Feed-Forward su Espacio Latente?

Resumen

A medida que los modelos de lenguaje a gran escala (LLMs) escalan, la pregunta no es solo cuán grandes se vuelven, sino cuánto de su capacidad se utiliza de manera efectiva. Las leyes de escalado existentes relacionan el tamaño del modelo con la pérdida, pero pasan por alto cómo los componentes aprovechan su espacio latente. Estudiamos las redes de alimentación directa (FFNs) y reformulamos la selección de ancho como un problema de utilización espectral. Utilizando un conjunto de diagnóstico ligero —Rango Duro (relación de participación), Rango Suave (rango de Shannon), Concentración Espectral y el índice compuesto de Utilización Espectral (SUI)— cuantificamos cuántas direcciones latentes se activan de manera significativa en las familias de modelos LLaMA, GPT-2 y nGPT. Nuestro hallazgo clave es una ley de escalado espectral asimétrica: el rango suave sigue una ley de potencia casi perfecta con el ancho de la FFN, mientras que el rango duro crece solo de manera sublineal y con alta varianza. Esta asimetría sugiere que ampliar las FFNs principalmente añade direcciones de baja energía en la cola, mientras que los subespacios de modos dominantes se saturan tempranamente. Además, en anchos mayores, la varianza colapsa aún más en un subespacio estrecho, dejando gran parte del espacio latente subutilizado. Estos resultados reformulan la selección del ancho de las FFNs como un equilibrio fundamentado entre la capacidad de la cola y la capacidad de los modos dominantes, ofreciendo una guía concreta para el diseño de LLMs eficientes en inferencia.

English

As large language models (LLMs) scale, the question is not only how large they become, but how much of their capacity is effectively utilized. Existing scaling laws relate model size to loss, yet overlook how components exploit their latent space. We study feed-forward networks (FFNs) and recast width selection as a spectral utilization problem. Using a lightweight diagnostic suite -- Hard Rank (participation ratio), Soft Rank (Shannon rank), Spectral Concentration, and the composite Spectral Utilization Index (SUI) -- we quantify how many latent directions are meaningfully activated across LLaMA, GPT-2, and nGPT families. Our key finding is an asymmetric spectral scaling law: soft rank follows an almost perfect power law with FFN width, while hard rank grows only sublinearly and with high variance. This asymmetry suggests that widening FFNs mostly adds low-energy tail directions, while dominant-mode subspaces saturate early. Moreover, at larger widths, variance further collapses into a narrow subspace, leaving much of the latent space under-utilized. These results recast FFN width selection as a principled trade-off between tail capacity and dominant-mode capacity, offering concrete guidance for inference-efficient LLM design.

Leyes de Escalamiento Espectral en Modelos de Lenguaje: ¿Qué Tan Efectivamente Utilizan las Redes Feed-Forward su Espacio Latente?

Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?

Resumen

Support