Voorschrijvende schaalwetten voor databeperkte training

Samenvatting

De rekenkracht voor training overtreft in toenemende mate de beschikbaarheid van hoogwaardige data. Hierdoor verschuift de centrale uitdaging van optimale rekenkrachttoewijzing naar het maximaliseren van de waarde uit beperkte data. De algemeen aanvaarde Chinchilla-schaalwet veronderstelt dat elke trainings-token uniek is. Dit beperkt haar vermogen om pretrainingsbeslissingen te sturen in data-arme regimes. Wij modelleren het excessieve verlies bij herhaling met een simpele additieve overfittingstraf en stellen vast dat dit modelgedrag nauwkeurig beschrijft. Onze schaalwet levert kwalitatief nieuw advies voor compute-optimale toewijzing. Voorbij een zeker punt is verdere herhaling contraproductief en kan rekenkracht beter worden besteed aan modelcapaciteit. Wij tonen aan dat het volgen van de door onze wet aanbevolen configuratie de prestaties in data-arme regimes verbetert. Tenslotte, omdat onze één-parametervorm overfitting isoleert in een enkele coëfficiënt, maakt dit een directe vergelijking tussen trainingsconfiguraties mogelijk. Als casestudy tonen we aan dat sterke gewichtsafname (λ=1.0) deze coëfficiënt met ongeveer 70% reduceert, wat een verklaring op basis van schaalwetten biedt voor recente bevindingen dat optimale gewichtsafname in data-arme regimes een orde van grootte groter is dan de standaardpraktijk.

English

Training compute is increasingly outpacing the availability of high-quality data. This shifts the central challenge from optimal compute allocation to extracting maximum value from limited data. The widely adopted Chinchilla scaling law assumes every training token is unique. This limits its ability to guide pretraining decisions in data-constrained regimes. We model the excess loss under repetition with a simple additive overfitting penalty and find that it accurately describes model behavior. Our scaling law yields qualitatively new compute-optimal allocation advice. Beyond a point, further repetition is counterproductive and compute is better spent on model capacity. We show that following our law's recommended configuration improves performance in data-constrained regimes. Finally, because our one-parameter form isolates overfitting in a single coefficient, it enables direct comparison across training configurations. As a case study, we show that strong weight decay (λ=1.0) reduces this coefficient by approximately 70%, providing a scaling-law explanation for recent findings that optimal weight decay in data-constrained regimes is an order of magnitude larger than standard practice.

Voorschrijvende schaalwetten voor databeperkte training

Prescriptive Scaling Laws for Data Constrained Training

Samenvatting

Support