Démystifier l'augmentation en phase d'entraînement pour le pré-entraînement de modèles de langue sous contrainte de données

Résumé

Alors que les laboratoires d'IA approchent d'un plafond de données où la capacité de calcul dépasse le rythme de génération de nouveaux textes de haute qualité, le pré-entraînement des modèles de langage évolue vers un régime contraint en données et abondant en calcul, qui exige un entraînement multi-époques productif sur des corpus fixes. Le pré-entraînement autorégressif (AR) standard souffre sévèrement de surentraînement dans ce cadre, atteignant son optimum tôt puis se détériorant continuellement. Nous étudions l'augmentation de données en phase d'entraînement comme régularisateur pour atténuer ce surentraînement et permettre un entraînement productif sur des centaines d'époques sur les mêmes données. Nous introduisons trois catégories orthogonales d'augmentation pour le pré-entraînement AR : le bruit au niveau des tokens (masquage, remplacement aléatoire), les permutations de séquences (prédiction de droite à gauche, Fill-in-the-Middle), et la prédiction de décalage de cible (x_{t+i} pour i > 1). Grâce à des ablations systématiques, nous constatons que les augmentations individuelles retardent le surentraînement et réduisent la perte de validation par rapport à la référence, le remplacement aléatoire de tokens obtenant la meilleure perte minimale parmi les méthodes individuelles. La combinaison de catégories d'augmentation réduit encore davantage la perte de validation minimale. Nos expériences démontrent que les augmentations de données atténuent l'inefficacité des données du pré-entraînement AR et offrent une solution prometteuse au régime contraint en données~\footnote{Tout le code et les données sont disponibles à l'adresse https://github.com/michaelchen-lab/data-augmentations-for-pretraining.}

English

As AI labs approach a data ceiling where compute capacity outpaces the rate of new high-quality text generation, language model pretraining is shifting toward a data-constrained, compute-abundant regime that demands productive multi-epoch training on fixed corpora. Standard autoregressive (AR) pretraining overfits severely in this setting, reaching its optimum early and then continuously deteriorating. We investigate training-time data augmentation as a regularizer to mitigate this overfitting and enable productive training for hundreds of epochs on the same data. We introduce three orthogonal categories of augmentation for AR pretraining: token-level noise (masking, random replacement), sequence permutations (right-to-left prediction, Fill-in-the-Middle), and target offset prediction (x_{t+i} for i > 1). Through systematic ablations, we find that individual augmentations delay overfitting and lower validation loss relative to the baseline, with random token replacement achieving the best minimum loss among individual methods. Combining augmentation categories further lowers the minimum validation loss. Our experiments demonstrate that data augmentations mitigate AR pretraining's data inefficiency and offer a promising solution to the data-constrained regime~\footnote{All code and data are available at https://github.com/ michaelchen-lab/ data-augmentations-for-pretraining.