ChatPaper.aiChatPaper

LLM's als ruiskanalen: een Shannon-perspectief op modelcapaciteit en schalingswetten

LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

May 22, 2026
Auteurs: Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma
cs.AI

Samenvatting

Bestaande schaalwetten voor grote taalmodellen (Large Language Models, LLM’s), voornamelijk monotone machtswetten, slagen er niet in om opkomende niet-monotone fenomenen zoals catastrofale overtraining en kwantisatie-geïnduceerde degradatie te verklaren, waarbij de prestaties verslechteren ondanks toegenomen rekenkracht. Wij stellen de Shannon-schaalwet voor, een uniform theoretisch kader dat LLM-training modellen als informatietransmissie over een ruisend kanaal, gebaseerd op de Shannon-Hartley-stelling. Door modelparameters aan kanaalbandbreedte en trainings-tokens aan signaalsterkte te koppelen, legt onze formulering expliciet de interactie tussen leersignaal en intrinsieke ruis vast. Dit perspectief onthult een fundamentele Shannon-capaciteit voor LLM’s: het opschalen van modelgrootte of data zonder een voldoende signaal-ruisverhouding (SNR) te handhaven, versterkt onvermijdelijk de ruis, wat leidt tot een overgang van monotone verbetering naar U-vormige prestatievermindering. Wij valideren onze theorie via experimenten met Pythia en OLMo2 onder verstoringen, waaronder Gaussiaanse ruis, kwantisatie en gesuperviseerde finetuning op wiskunde-, QA- en codetaken. De Shannon-schaalwet presteert consistent beter dan klassieke schaalwetten en recente verstoringsbewuste wetten, met sterke R²-scores en een nauwkeurige weergave van verliesbekkens die eerdere benaderingen missen. De wet extrapoleert ook: getraind op Pythia-modellen ≤6.9B met ≤180B tokens, voorspelt hij het ongeziene 12B-model tot 307B tokens met een gepoolde R² van 0,847, terwijl monotone baselines instorten.
English
Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R^2 scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on leq6.9B Pythia models with leq180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R^2{=}0.847, while monotonic baselines collapse.