BJM как шумовые каналы: перспектива Шеннона на емкость модели и законы масштабирования
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
May 22, 2026
Авторы: Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma
cs.AI
Аннотация
Существующие законы масштабирования для больших языковых моделей (LLM), преимущественно монотонные степенные законы, не могут объяснить возникающие немонотонные явления, такие как катастрофическое переобучение и деградация, вызванная квантованием, когда производительность ухудшается, несмотря на увеличение вычислительных затрат.
Мы предлагаем закон масштабирования Шеннона — единую теоретическую рамку, которая моделирует обучение LLM как передачу информации по зашумленному каналу, основанную на теореме Шеннона–Хартли. Сопоставляя параметры модели с полосой пропускания канала, а обучающие токены — с мощностью сигнала, наша формулировка явно отражает взаимодействие между обучающим сигналом и внутренним шумом. Эта перспектива раскрывает фундаментальную пропускную способность Шеннона для LLM: масштабирование размера модели или объёма данных без сохранения достаточного отношения сигнал/шум (ОСШ) неизбежно усиливает шум, вызывая переход от монотонного улучшения к U-образной деградации производительности.
Мы подтверждаем нашу теорию экспериментами на моделях Pythia и OLMo2 при возмущениях, включая гауссов шум, квантование и контролируемую тонкую настройку на задачах по математике, ответам на вопросы и коду. Закон масштабирования Шеннона последовательно превосходит классические законы масштабирования и недавние законы, учитывающие возмущения, демонстрируя высокие значения R² и точно отражая бассейны потерь, которые упускались предыдущими подходами. Он также экстраполирует: будучи подогнанным на моделях Pythia с ≤6,9 млрд параметров и ≤180 млрд токенов, он предсказывает производительность неизвестной модели 12B на до 307 млрд токенов с объединённым R² = 0,847, в то время как монотонные базовые модели теряют предсказательную силу.
English
Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute.
We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation.
We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R^2 scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on leq6.9B Pythia models with leq180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R^2{=}0.847, while monotonic baselines collapse.