Lois d'échelle prescriptives pour l'entraînement avec contrainte de données

Résumé

La puissance de calcul dédiée à l'entraînement dépasse de plus en plus la disponibilité de données de haute qualité. Cela déplace le défi central de l'allocation optimale du calcul vers l'extraction de la valeur maximale à partir de données limitées. La loi d'échelle de Chinchilla, largement adoptée, suppose que chaque token d'entraînement est unique. Cela limite sa capacité à guider les décisions de pré-entraînement dans des régimes contraints en données. Nous modélisons la perte excédentaire sous répétition avec une pénalité de surajustement additive simple et constatons qu'elle décrit précisément le comportement du modèle. Notre loi d'échelle produit des conseils d'allocation optimale en calcul qualitativement nouveaux. Au-delà d'un certain point, une répétition supplémentaire est contre-productive et il est préférable d'affecter le calcul à la capacité du modèle. Nous montrons que suivre la configuration recommandée par notre loi améliore les performances dans des régimes contraints en données. Enfin, parce que notre formulation à un paramètre isole le surajustement dans un seul coefficient, elle permet une comparaison directe entre les configurations d'entraînement. Comme étude de cas, nous montrons qu'une forte décroissance des poids (λ=1,0) réduit ce coefficient d'environ 70 %, fournissant une explication par loi d'échelle aux résultats récents indiquant que la décroissance des poids optimale dans des régimes contraints en données est un ordre de grandeur plus élevée que la pratique standard.

English

Training compute is increasingly outpacing the availability of high-quality data. This shifts the central challenge from optimal compute allocation to extracting maximum value from limited data. The widely adopted Chinchilla scaling law assumes every training token is unique. This limits its ability to guide pretraining decisions in data-constrained regimes. We model the excess loss under repetition with a simple additive overfitting penalty and find that it accurately describes model behavior. Our scaling law yields qualitatively new compute-optimal allocation advice. Beyond a point, further repetition is counterproductive and compute is better spent on model capacity. We show that following our law's recommended configuration improves performance in data-constrained regimes. Finally, because our one-parameter form isolates overfitting in a single coefficient, it enables direct comparison across training configurations. As a case study, we show that strong weight decay (λ=1.0) reduces this coefficient by approximately 70%, providing a scaling-law explanation for recent findings that optimal weight decay in data-constrained regimes is an order of magnitude larger than standard practice.

Lois d'échelle prescriptives pour l'entraînement avec contrainte de données

Prescriptive Scaling Laws for Data Constrained Training

Résumé

Support