Предписывающие законы масштабирования при обучении с ограниченными данными

Аннотация

Объем вычислительных ресурсов для обучения все чаще превосходит доступность высококачественных данных. Это смещает ключевую проблему с оптимального распределения вычислений на извлечение максимальной пользы из ограниченных данных. Широко применяемый закон масштабирования Чинчиллы предполагает, что каждый токен обучения уникален. Это ограничивает его способность направлять решения по предварительному обучению в условиях нехватки данных. Мы моделируем избыточную потерю при повторении с помощью простого аддитивного штрафа за переобучение и обнаруживаем, что это точно описывает поведение модели. Наш закон масштабирования дает качественно новые рекомендации по оптимальному распределению вычислений. За определенным пределом дальнейшее повторение становится контрпродуктивным, и вычислительные ресурсы лучше направить на увеличение емкости модели. Мы показываем, что следование рекомендованной нашей законом конфигурации улучшает производительность в условиях ограниченности данных. Наконец, поскольку наша однопараметрическая форма изолирует переобучение в единственном коэффициенте, она позволяет напрямую сравнивать различные конфигурации обучения. В качестве примера мы демонстрируем, что сильная регуляризация по весам (λ=1.0) уменьшает этот коэффициент примерно на 70%, что дает объяснение с позиции законов масштабирования недавним находкам о том, что оптимальный вес регуляризации в условиях дефицита данных на порядок превышает стандартную практику.

English

Training compute is increasingly outpacing the availability of high-quality data. This shifts the central challenge from optimal compute allocation to extracting maximum value from limited data. The widely adopted Chinchilla scaling law assumes every training token is unique. This limits its ability to guide pretraining decisions in data-constrained regimes. We model the excess loss under repetition with a simple additive overfitting penalty and find that it accurately describes model behavior. Our scaling law yields qualitatively new compute-optimal allocation advice. Beyond a point, further repetition is counterproductive and compute is better spent on model capacity. We show that following our law's recommended configuration improves performance in data-constrained regimes. Finally, because our one-parameter form isolates overfitting in a single coefficient, it enables direct comparison across training configurations. As a case study, we show that strong weight decay (λ=1.0) reduces this coefficient by approximately 70%, providing a scaling-law explanation for recent findings that optimal weight decay in data-constrained regimes is an order of magnitude larger than standard practice.

Предписывающие законы масштабирования при обучении с ограниченными данными

Prescriptive Scaling Laws for Data Constrained Training

Аннотация

Support