ChatPaper.aiChatPaper

LLMs als verrauschte Kanäle: Eine Shannon-Perspektive auf Modellkapazität und Skalierungsgesetze

LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

May 22, 2026
Autoren: Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma
cs.AI

Zusammenfassung

Existierende Skalierungsgesetze für Große Sprachmodelle (Large Language Models, LLMs), die überwiegend monotone Potenzgesetze sind, können nicht-monotone Phänomene wie katastrophales Übertraining und quantisierungsbedingte Verschlechterung nicht erklären, bei denen die Leistung trotz erhöhter Rechenleistung abnimmt. Wir schlagen das Shannon-Skalierungsgesetz vor, einen einheitlichen theoretischen Rahmen, der das Training von LLMs als Informationsübertragung über einen verrauschten Kanal modelliert, basierend auf dem Shannon-Hartley-Theorem. Durch die Abbildung von Modellparametern auf die Kanalbandbreite und Trainings-Token auf die Signalleistung erfasst unsere Formulierung explizit die Wechselwirkung zwischen Lernsignal und intrinsischem Rauschen. Diese Perspektive offenbart eine grundlegende Shannon-Kapazität für LLMs: Das Skalieren der Modellgröße oder der Daten ohne ausreichendes Signal-Rausch-Verhältnis (SNR) verstärkt unweigerlich das Rauschen und induziert einen Übergang von monotoner Verbesserung zu einer U-förmigen Leistungsverschlechterung. Wir validieren unsere Theorie durch Experimente mit Pythia und OLMo2 unter Störungen, darunter gaußsches Rauschen, Quantisierung und überwachtes Feintuning bei Mathematik-, Frage-Antwort- und Code-Aufgaben. Das Shannon-Skalierungsgesetz übertrifft durchgängig klassische Skalierungsgesetze und aktuelle störungsbewusste Gesetze, erzielt hohe R²-Werte und erfasst präzise Verlusttäler, die von früheren Ansätzen übersehen wurden. Es extrapoliert zudem: Angepasst an Pythia-Modelle ≤6,9B mit ≤180B Token sagt es das ungesehene 12B-Modell bis zu 307B Token mit einem gepoolten R²=0,847 voraus, während monotone Basislinien versagen.
English
Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R^2 scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on leq6.9B Pythia models with leq180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R^2{=}0.847, while monotonic baselines collapse.