ChatPaper.aiChatPaper

Законы масштабирования для оптимальных смесей данных

Scaling Laws for Optimal Data Mixtures

July 12, 2025
Авторы: Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin
cs.AI

Аннотация

Крупные базовые модели обычно обучаются на данных из нескольких областей, при этом смесь данных — пропорция использования каждой области — играет критическую роль в производительности модели. Стандартный подход к выбору этой смеси основывается на методе проб и ошибок, что становится непрактичным для крупномасштабного предварительного обучения. Мы предлагаем систематический метод определения оптимальной смеси данных для любой целевой области с использованием законов масштабирования. Наш подход точно предсказывает потери модели размером N, обученной на D токенах с определенным вектором весов областей h. Мы подтверждаем универсальность этих законов масштабирования, демонстрируя их предсказательную силу в трех различных и крупномасштабных контекстах: предварительное обучение крупных языковых моделей (LLM), нативных мультимодальных моделей (NMM) и крупных моделей компьютерного зрения (LVM). Мы также показываем, что эти законы масштабирования могут экстраполироваться на новые смеси данных и масштабы: их параметры могут быть точно оценены с помощью нескольких небольших обучающих прогонов и использованы для оценки производительности на более крупных масштабах и неизвестных весах областей. Законы масштабирования позволяют вывести оптимальные веса областей для любой целевой области при заданном бюджете обучения (N, D), предоставляя принципиальную альтернативу затратным методам проб и ошибок.
English
Large foundation models are typically trained on data from multiple domains, with the data mixture--the proportion of each domain used--playing a critical role in model performance. The standard approach to selecting this mixture relies on trial and error, which becomes impractical for large-scale pretraining. We propose a systematic method to determine the optimal data mixture for any target domain using scaling laws. Our approach accurately predicts the loss of a model of size N trained with D tokens and a specific domain weight vector h. We validate the universality of these scaling laws by demonstrating their predictive power in three distinct and large-scale settings: large language model (LLM), native multimodal model (NMM), and large vision models (LVM) pretraining. We further show that these scaling laws can extrapolate to new data mixtures and across scales: their parameters can be accurately estimated using a few small-scale training runs, and used to estimate the performance at larger scales and unseen domain weights. The scaling laws allow to derive the optimal domain weights for any target domain under a given training budget (N,D), providing a principled alternative to costly trial-and-error methods.
PDF261July 16, 2025