LLMs als verrauschte Kanäle: Eine Shannon-Perspektive auf Modellkapazität und Skalierungsgesetze

Zusammenfassung

Existierende Skalierungsgesetze für Große Sprachmodelle (Large Language Models, LLMs), die überwiegend monotone Potenzgesetze sind, können nicht-monotone Phänomene wie katastrophales Übertraining und quantisierungsbedingte Verschlechterung nicht erklären, bei denen die Leistung trotz erhöhter Rechenleistung abnimmt. Wir schlagen das Shannon-Skalierungsgesetz vor, einen einheitlichen theoretischen Rahmen, der das Training von LLMs als Informationsübertragung über einen verrauschten Kanal modelliert, basierend auf dem Shannon-Hartley-Theorem. Durch die Abbildung von Modellparametern auf die Kanalbandbreite und Trainings-Token auf die Signalleistung erfasst unsere Formulierung explizit die Wechselwirkung zwischen Lernsignal und intrinsischem Rauschen. Diese Perspektive offenbart eine grundlegende Shannon-Kapazität für LLMs: Das Skalieren der Modellgröße oder der Daten ohne ausreichendes Signal-Rausch-Verhältnis (SNR) verstärkt unweigerlich das Rauschen und induziert einen Übergang von monotoner Verbesserung zu einer U-förmigen Leistungsverschlechterung. Wir validieren unsere Theorie durch Experimente mit Pythia und OLMo2 unter Störungen, darunter gaußsches Rauschen, Quantisierung und überwachtes Feintuning bei Mathematik-, Frage-Antwort- und Code-Aufgaben. Das Shannon-Skalierungsgesetz übertrifft durchgängig klassische Skalierungsgesetze und aktuelle störungsbewusste Gesetze, erzielt hohe R²-Werte und erfasst präzise Verlusttäler, die von früheren Ansätzen übersehen wurden. Es extrapoliert zudem: Angepasst an Pythia-Modelle ≤6,9B mit ≤180B Token sagt es das ungesehene 12B-Modell bis zu 307B Token mit einem gepoolten R²=0,847 voraus, während monotone Basislinien versagen.

English

Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R^2 scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on leq6.9B Pythia models with leq180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R^2{=}0.847, while monotonic baselines collapse.