LLMs como Canais Ruidosos: Uma Perspectiva de Shannon sobre Capacidade de Modelos e Leis de Escala

Resumo

As leis de escala existentes para Grandes Modelos de Linguagem (LLMs), predominantemente leis de potência monotônicas, não conseguem explicar fenômenos não monotônicos emergentes, como o sobretreinamento catastrófico e a degradação induzida por quantização, nos quais o desempenho piora apesar do aumento do poder computacional. Propomos a Lei de Escala de Shannon, um arcabouço teórico unificado que modela o treinamento de LLMs como transmissão de informação por um canal ruidoso, fundamentado no teorema de Shannon-Hartley. Ao mapear parâmetros do modelo para largura de banda do canal e tokens de treinamento para potência do sinal, nossa formulação captura explicitamente a interação entre sinal de aprendizado e ruído intrínseco. Essa perspectiva revela uma capacidade de Shannon fundamental para LLMs: escalar o tamanho do modelo ou os dados sem preservar uma relação sinal-ruído (SNR) suficiente inevitavelmente amplifica o ruído, induzindo uma transição de melhora monotônica para degradação de desempenho em forma de U. Validamos nossa teoria por meio de experimentos com Pythia e OLMo2 sob perturbações, incluindo ruído gaussiano, quantização e ajuste fino supervisionado em tarefas de matemática, resposta a perguntas e código. A Lei de Escala de Shannon supera consistentemente as leis de escala clássicas e as leis recentes sensíveis a perturbações, alcançando altos valores de R² e capturando com precisão bacias de perda ignoradas por abordagens anteriores. Ela também extrapola: ajustada em modelos Pythia de ≤6,9B com ≤180B tokens, prevê o modelo não visto de 12B com até 307B tokens com R² combinado=0,847, enquanto as linhas de base monotônicas colapsam.

English

Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R^2 scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on leq6.9B Pythia models with leq180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R^2{=}0.847, while monotonic baselines collapse.