Präskriptive Skalierungsgesetze für datenbeschränktes Training

Zusammenfassung

Der Trainingsrechenbedarf übersteigt zunehmend die Verfügbarkeit hochwertiger Daten. Dies verlagert die zentrale Herausforderung von der optimalen Rechenleistungszuweisung hin zur Maximierung des Nutzens begrenzter Daten. Das weit verbreitete Chinchilla-Skalierungsgesetz geht davon aus, dass jedes Trainings-Token einzigartig ist. Dies schränkt seine Fähigkeit ein, Vor-Trainings-Entscheidungen in datenbegrenzten Regimen zu leiten. Wir modellieren den überschüssigen Verlust bei Wiederholung mit einer einfachen additiven Überanpassungsstrafe und stellen fest, dass dies das Modellverhalten genau beschreibt. Unser Skalierungsgesetz liefert qualitativ neue Ratschläge für eine rechenoptimalen Zuordnung. Über einen bestimmten Punkt hinaus sind weitere Wiederholungen kontraproduktiv, und Rechenleistung sollte besser für Modellkapazität aufgewendet werden. Wir zeigen, dass die Befolgung der von unserem Gesetz empfohlenen Konfiguration die Leistung in datenbegrenzten Regimen verbessert. Da unsere Ein-Parameter-Form die Überanpassung in einem einzelnen Koeffizienten isoliert, ermöglicht sie schließlich den direkten Vergleich verschiedener Trainingskonfigurationen. In einer Fallstudie zeigen wir, dass starke Weight Decay (λ=1,0) diesen Koeffizienten um etwa 70 % reduziert, was eine Skalierungsgesetz-Erklärung für jüngste Erkenntnisse liefert, dass optimale Weight Decay in datenbegrenzten Regimen eine Größenordnung über der Standardpraxis liegt.

English

Training compute is increasingly outpacing the availability of high-quality data. This shifts the central challenge from optimal compute allocation to extracting maximum value from limited data. The widely adopted Chinchilla scaling law assumes every training token is unique. This limits its ability to guide pretraining decisions in data-constrained regimes. We model the excess loss under repetition with a simple additive overfitting penalty and find that it accurately describes model behavior. Our scaling law yields qualitatively new compute-optimal allocation advice. Beyond a point, further repetition is counterproductive and compute is better spent on model capacity. We show that following our law's recommended configuration improves performance in data-constrained regimes. Finally, because our one-parameter form isolates overfitting in a single coefficient, it enables direct comparison across training configurations. As a case study, we show that strong weight decay (λ=1.0) reduces this coefficient by approximately 70%, providing a scaling-law explanation for recent findings that optimal weight decay in data-constrained regimes is an order of magnitude larger than standard practice.

Präskriptive Skalierungsgesetze für datenbeschränktes Training

Prescriptive Scaling Laws for Data Constrained Training

Zusammenfassung

Support