Desmitificando el aumento durante el entrenamiento para el preentrenamiento de modelos de lenguaje con datos limitados

Resumen

A medida que los laboratorios de inteligencia artificial se aproximan a un techo de datos donde la capacidad computacional supera la tasa de generación de nuevo texto de alta calidad, el preentrenamiento de modelos de lenguaje está transitando hacia un régimen con restricciones de datos y abundancia computacional que exige un entrenamiento productivo con múltiples épocas sobre corpus fijos. El preentrenamiento autorregresivo (AR) estándar presenta un sobreajuste severo en este escenario, alcanzando su óptimo tempranamente y deteriorándose luego de forma continua. Investigamos la aumentación de datos en tiempo de entrenamiento como regularizador para mitigar este sobreajuste y permitir un entrenamiento productivo durante cientos de épocas sobre los mismos datos. Introducimos tres categorías ortogonales de aumentación para el preentrenamiento AR: ruido a nivel de tokens (enmascaramiento, reemplazo aleatorio), permutaciones de secuencias (predicción de derecha a izquierda, Fill-in-the-Middle) y predicción de desplazamiento de objetivo (x_{t+i} para i > 1). Mediante ablationes sistemáticas, encontramos que las aumentaciones individuales retrasan el sobreajuste y reducen la pérdida de validación en comparación con la línea base, siendo el reemplazo aleatorio de tokens el que logra la mejor pérdida mínima entre los métodos individuales. La combinación de categorías de aumentación reduce aún más la pérdida mínima de validación. Nuestros experimentos demuestran que las aumentaciones de datos mitigan la ineficiencia de datos del preentrenamiento AR y ofrecen una solución prometedora para el régimen con restricciones de datos~\footnote{Todo el código y los datos están disponibles en https://github.com/michaelchen-lab/data-augmentations-for-pretraining.}.

English

As AI labs approach a data ceiling where compute capacity outpaces the rate of new high-quality text generation, language model pretraining is shifting toward a data-constrained, compute-abundant regime that demands productive multi-epoch training on fixed corpora. Standard autoregressive (AR) pretraining overfits severely in this setting, reaching its optimum early and then continuously deteriorating. We investigate training-time data augmentation as a regularizer to mitigate this overfitting and enable productive training for hundreds of epochs on the same data. We introduce three orthogonal categories of augmentation for AR pretraining: token-level noise (masking, random replacement), sequence permutations (right-to-left prediction, Fill-in-the-Middle), and target offset prediction (x_{t+i} for i > 1). Through systematic ablations, we find that individual augmentations delay overfitting and lower validation loss relative to the baseline, with random token replacement achieving the best minimum loss among individual methods. Combining augmentation categories further lowers the minimum validation loss. Our experiments demonstrate that data augmentations mitigate AR pretraining's data inefficiency and offer a promising solution to the data-constrained regime~\footnote{All code and data are available at https://github.com/ michaelchen-lab/ data-augmentations-for-pretraining.