LLM's als ruiskanalen: een Shannon-perspectief op modelcapaciteit en schalingswetten

Samenvatting

Bestaande schaalwetten voor grote taalmodellen (Large Language Models, LLM’s), voornamelijk monotone machtswetten, slagen er niet in om opkomende niet-monotone fenomenen zoals catastrofale overtraining en kwantisatie-geïnduceerde degradatie te verklaren, waarbij de prestaties verslechteren ondanks toegenomen rekenkracht. Wij stellen de Shannon-schaalwet voor, een uniform theoretisch kader dat LLM-training modellen als informatietransmissie over een ruisend kanaal, gebaseerd op de Shannon-Hartley-stelling. Door modelparameters aan kanaalbandbreedte en trainings-tokens aan signaalsterkte te koppelen, legt onze formulering expliciet de interactie tussen leersignaal en intrinsieke ruis vast. Dit perspectief onthult een fundamentele Shannon-capaciteit voor LLM’s: het opschalen van modelgrootte of data zonder een voldoende signaal-ruisverhouding (SNR) te handhaven, versterkt onvermijdelijk de ruis, wat leidt tot een overgang van monotone verbetering naar U-vormige prestatievermindering. Wij valideren onze theorie via experimenten met Pythia en OLMo2 onder verstoringen, waaronder Gaussiaanse ruis, kwantisatie en gesuperviseerde finetuning op wiskunde-, QA- en codetaken. De Shannon-schaalwet presteert consistent beter dan klassieke schaalwetten en recente verstoringsbewuste wetten, met sterke R²-scores en een nauwkeurige weergave van verliesbekkens die eerdere benaderingen missen. De wet extrapoleert ook: getraind op Pythia-modellen ≤6.9B met ≤180B tokens, voorspelt hij het ongeziene 12B-model tot 307B tokens met een gepoolde R² van 0,847, terwijl monotone baselines instorten.

English

Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R^2 scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on leq6.9B Pythia models with leq180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R^2{=}0.847, while monotonic baselines collapse.