Les LLM comme canaux bruités : une perspective de Shannon sur la capacité du modèle et les lois d'échelle

Résumé

Les lois d'échelle existantes pour les grands modèles de langage (LLMs), principalement des lois de puissance monotones, ne parviennent pas à expliquer les phénomènes émergents non monotones tels que le surentraînement catastrophique et la dégradation induite par la quantification, où les performances se détériorent malgré une augmentation du calcul. Nous proposons la loi d’échelle de Shannon, un cadre théorique unifié qui modélise l’entraînement des LLMs comme une transmission d’information sur un canal bruité, fondé sur le théorème de Shannon-Hartley. En faisant correspondre les paramètres du modèle à la largeur de bande du canal et les tokens d’entraînement à la puissance du signal, notre formulation capture explicitement l’interaction entre le signal d’apprentissage et le bruit intrinsèque. Cette perspective révèle une capacité de Shannon fondamentale pour les LLMs : augmenter la taille du modèle ou les données sans préserver un rapport signal sur bruit (SNR) suffisant amplifie inévitablement le bruit, induisant une transition d’une amélioration monotone à une dégradation des performances en forme de U. Nous validons notre théorie par des expériences sur Pythia et OLMo2 sous perturbations, incluant le bruit gaussien, la quantification et l’ajustement supervisé sur des tâches de mathématiques, de questions-réponses et de code. La loi d’échelle de Shannon surpasse systématiquement les lois d’échelle classiques et les lois récentes tenant compte des perturbations, obtenant des scores R² élevés et capturant précisément les bassins de perte manqués par les approches antérieures. Elle permet également l’extrapolation : ajustée sur des modèles Pythia ≤ 6,9B avec ≤ 180B tokens, elle prédit le modèle 12B non observé jusqu’à 307B tokens avec un R² poolé de 0,847, tandis que les lignes de base monotones s’effondrent.

English

Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R^2 scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on leq6.9B Pythia models with leq180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R^2{=}0.847, while monotonic baselines collapse.