ChatPaper.aiChatPaper

Leis de Escalonamento para Misturas Ótimas de Dados

Scaling Laws for Optimal Data Mixtures

July 12, 2025
Autores: Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin
cs.AI

Resumo

Grandes modelos de base são tipicamente treinados com dados de múltiplos domínios, sendo que a mistura de dados—a proporção de cada domínio utilizado—desempenha um papel crítico no desempenho do modelo. A abordagem padrão para selecionar essa mistura se baseia em tentativa e erro, o que se torna impraticável para pré-treinamentos em larga escala. Propomos um método sistemático para determinar a mistura ótima de dados para qualquer domínio alvo utilizando leis de escalonamento. Nossa abordagem prevê com precisão a perda de um modelo de tamanho N treinado com D tokens e um vetor de pesos de domínio específico h. Validamos a universalidade dessas leis de escalonamento demonstrando seu poder preditivo em três cenários distintos e em larga escala: pré-treinamento de modelos de linguagem de grande escala (LLM), modelos multimodais nativos (NMM) e modelos de visão de grande escala (LVM). Além disso, mostramos que essas leis de escalonamento podem extrapolar para novas misturas de dados e entre escalas: seus parâmetros podem ser estimados com precisão usando algumas execuções de treinamento em pequena escala e, em seguida, usados para estimar o desempenho em escalas maiores e pesos de domínio não vistos. As leis de escalonamento permitem derivar os pesos ótimos de domínio para qualquer domínio alvo sob um orçamento de treinamento (N,D) dado, oferecendo uma alternativa fundamentada aos métodos custosos de tentativa e erro.
English
Large foundation models are typically trained on data from multiple domains, with the data mixture--the proportion of each domain used--playing a critical role in model performance. The standard approach to selecting this mixture relies on trial and error, which becomes impractical for large-scale pretraining. We propose a systematic method to determine the optimal data mixture for any target domain using scaling laws. Our approach accurately predicts the loss of a model of size N trained with D tokens and a specific domain weight vector h. We validate the universality of these scaling laws by demonstrating their predictive power in three distinct and large-scale settings: large language model (LLM), native multimodal model (NMM), and large vision models (LVM) pretraining. We further show that these scaling laws can extrapolate to new data mixtures and across scales: their parameters can be accurately estimated using a few small-scale training runs, and used to estimate the performance at larger scales and unseen domain weights. The scaling laws allow to derive the optimal domain weights for any target domain under a given training budget (N,D), providing a principled alternative to costly trial-and-error methods.
PDF331July 16, 2025