Los LLMs como canales ruidosos: Una perspectiva de Shannon sobre la capacidad del modelo y las leyes de escalado

Resumen

Las leyes de escalado existentes para los Modelos de Lenguaje de Gran Escala (LLMs), predominantemente leyes de potencia monótonas, no logran explicar fenómenos no monótonos emergentes como el sobreentrenamiento catastrófico y la degradación inducida por cuantificación, donde el rendimiento se deteriora a pesar de un mayor cómputo. Proponemos la Ley de Escalado de Shannon, un marco teórico unificado que modela el entrenamiento de LLMs como transmisión de información sobre un canal ruidoso, fundamentado en el teorema de Shannon-Hartley. Al mapear los parámetros del modelo al ancho de banda del canal y los tokens de entrenamiento a la potencia de la señal, nuestra formulación captura explícitamente la interacción entre la señal de aprendizaje y el ruido intrínseco. Esta perspectiva revela una capacidad de Shannon fundamental para los LLMs: escalar el tamaño del modelo o los datos sin preservar una relación señal-ruido (SNR) suficiente inevitablemente amplifica el ruido, induciendo una transición de una mejora monótona a una degradación del rendimiento en forma de U. Validamos nuestra teoría mediante experimentos en Pythia y OLMo2 bajo perturbaciones, incluyendo ruido gaussiano, cuantificación y ajuste fino supervisado en tareas de matemáticas, preguntas y respuestas (QA) y código. La Ley de Escalado de Shannon supera consistentemente a las leyes de escalado clásicas y a las leyes recientes conscientes de perturbaciones, logrando puntuaciones R² sólidas y capturando con precisión cuencas de pérdida que los enfoques anteriores pasaban por alto. También extrapola: ajustada en modelos Pythia de ≤6.9B con ≤180B tokens, predice el modelo no visto de 12B hasta 307B tokens con un R² agrupado=0.847, mientras que las líneas base monótonas colapsan.

English

Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R^2 scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on leq6.9B Pythia models with leq180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R^2{=}0.847, while monotonic baselines collapse.