Entmystifizierung von Trainingszeit-Augmentierung für dateneingeschränktes Sprachmodell-Vortraining

Zusammenfassung

Da KI-Labore an eine Datengrenze stoßen, bei der die Rechenkapazität die Rate der Erzeugung neuer hochwertiger Texte übersteigt, verlagert sich das Pretraining von Sprachmodellen hin zu einem datenlimitierten, rechenintensiven Regime, das produktives Mehrepochen-Training auf festen Korpora erfordert. Standardmäßiges autoregressives (AR) Pretraining leidet in diesem Szenario stark unter Overfitting: Es erreicht sein Optimum früh und verschlechtert sich dann kontinuierlich. Wir untersuchen datenseitige Datenaugmentierung während des Trainings als Regularisierer, um dieses Overfitting abzumildern und produktives Training über Hunderte von Epochen auf denselben Daten zu ermöglichen. Wir führen drei orthogonale Kategorien der Augmentierung für AR-Pretraining ein: Rauschen auf Token-Ebene (Maskierung, zufälliges Ersetzen), Sequenzpermutationen (Rechts-nach-Links-Vorhersage, Fill-in-the-Middle) und Zielverschiebungsvorhersage (x_{t+i} für i > 1). Durch systematische Ablationen finden wir, dass einzelne Augmentierungen das Overfitting verzögern und die Validierungsverluste im Vergleich zur Baseline senken, wobei zufälliges Token-Ersetzen den besten minimalen Verlust unter den Einzelmethoden erzielt. Die Kombination von Augmentierungskategorien senkt den minimalen Validierungsverlust weiter. Unsere Experimente zeigen, dass Datenaugmentierungen die Datenineffizienz des AR-Pretrainings abschwächen und eine vielversprechende Lösung für das datenlimitierte Regime darstellen~\footnote{Der gesamte Code und die Daten sind verfügbar unter https://github.com/michaelchen-lab/data-augmentations-for-pretraining.}.

English

As AI labs approach a data ceiling where compute capacity outpaces the rate of new high-quality text generation, language model pretraining is shifting toward a data-constrained, compute-abundant regime that demands productive multi-epoch training on fixed corpora. Standard autoregressive (AR) pretraining overfits severely in this setting, reaching its optimum early and then continuously deteriorating. We investigate training-time data augmentation as a regularizer to mitigate this overfitting and enable productive training for hundreds of epochs on the same data. We introduce three orthogonal categories of augmentation for AR pretraining: token-level noise (masking, random replacement), sequence permutations (right-to-left prediction, Fill-in-the-Middle), and target offset prediction (x_{t+i} for i > 1). Through systematic ablations, we find that individual augmentations delay overfitting and lower validation loss relative to the baseline, with random token replacement achieving the best minimum loss among individual methods. Combining augmentation categories further lowers the minimum validation loss. Our experiments demonstrate that data augmentations mitigate AR pretraining's data inefficiency and offer a promising solution to the data-constrained regime~\footnote{All code and data are available at https://github.com/ michaelchen-lab/ data-augmentations-for-pretraining.