ChatPaper.aiChatPaper

LLMs como Canais Ruidosos: Uma Perspectiva de Shannon sobre Capacidade de Modelos e Leis de Escala

LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

May 22, 2026
Autores: Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma
cs.AI

Resumo

As leis de escala existentes para Grandes Modelos de Linguagem (LLMs), predominantemente leis de potência monotônicas, não conseguem explicar fenômenos não monotônicos emergentes, como o sobretreinamento catastrófico e a degradação induzida por quantização, nos quais o desempenho piora apesar do aumento do poder computacional. Propomos a Lei de Escala de Shannon, um arcabouço teórico unificado que modela o treinamento de LLMs como transmissão de informação por um canal ruidoso, fundamentado no teorema de Shannon-Hartley. Ao mapear parâmetros do modelo para largura de banda do canal e tokens de treinamento para potência do sinal, nossa formulação captura explicitamente a interação entre sinal de aprendizado e ruído intrínseco. Essa perspectiva revela uma capacidade de Shannon fundamental para LLMs: escalar o tamanho do modelo ou os dados sem preservar uma relação sinal-ruído (SNR) suficiente inevitavelmente amplifica o ruído, induzindo uma transição de melhora monotônica para degradação de desempenho em forma de U. Validamos nossa teoria por meio de experimentos com Pythia e OLMo2 sob perturbações, incluindo ruído gaussiano, quantização e ajuste fino supervisionado em tarefas de matemática, resposta a perguntas e código. A Lei de Escala de Shannon supera consistentemente as leis de escala clássicas e as leis recentes sensíveis a perturbações, alcançando altos valores de R² e capturando com precisão bacias de perda ignoradas por abordagens anteriores. Ela também extrapola: ajustada em modelos Pythia de ≤6,9B com ≤180B tokens, prevê o modelo não visto de 12B com até 307B tokens com R² combinado=0,847, enquanto as linhas de base monotônicas colapsam.
English
Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R^2 scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on leq6.9B Pythia models with leq180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R^2{=}0.847, while monotonic baselines collapse.