BJM как шумовые каналы: перспектива Шеннона на емкость модели и законы масштабирования

Аннотация

Существующие законы масштабирования для больших языковых моделей (LLM), преимущественно монотонные степенные законы, не могут объяснить возникающие немонотонные явления, такие как катастрофическое переобучение и деградация, вызванная квантованием, когда производительность ухудшается, несмотря на увеличение вычислительных затрат. Мы предлагаем закон масштабирования Шеннона — единую теоретическую рамку, которая моделирует обучение LLM как передачу информации по зашумленному каналу, основанную на теореме Шеннона–Хартли. Сопоставляя параметры модели с полосой пропускания канала, а обучающие токены — с мощностью сигнала, наша формулировка явно отражает взаимодействие между обучающим сигналом и внутренним шумом. Эта перспектива раскрывает фундаментальную пропускную способность Шеннона для LLM: масштабирование размера модели или объёма данных без сохранения достаточного отношения сигнал/шум (ОСШ) неизбежно усиливает шум, вызывая переход от монотонного улучшения к U-образной деградации производительности. Мы подтверждаем нашу теорию экспериментами на моделях Pythia и OLMo2 при возмущениях, включая гауссов шум, квантование и контролируемую тонкую настройку на задачах по математике, ответам на вопросы и коду. Закон масштабирования Шеннона последовательно превосходит классические законы масштабирования и недавние законы, учитывающие возмущения, демонстрируя высокие значения R² и точно отражая бассейны потерь, которые упускались предыдущими подходами. Он также экстраполирует: будучи подогнанным на моделях Pythia с ≤6,9 млрд параметров и ≤180 млрд токенов, он предсказывает производительность неизвестной модели 12B на до 307 млрд токенов с объединённым R² = 0,847, в то время как монотонные базовые модели теряют предсказательную силу.

English

Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R^2 scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on leq6.9B Pythia models with leq180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R^2{=}0.847, while monotonic baselines collapse.