Демистификация аугментации во время обучения для предобучения языковых моделей в условиях ограниченных данных

Аннотация

По мере того как лаборатории ИИ приближаются к потолку данных, когда вычислительные мощности превышают скорость генерации новых качественных текстов, предобучение языковых моделей переходит в режим ограниченности данных и избытка вычислений, требующий продуктивного многократного обучения по эпохам на фиксированных корпусах. Стандартное авторегрессионное (АР) предобучение в таких условиях сильно переобучается, достигая своего оптимума рано, а затем непрерывно ухудшается. Мы исследуем аугментацию данных на этапе обучения как регуляризатор для смягчения этого переобучения и обеспечения продуктивного обучения на сотнях эпох на одних и тех же данных. Мы вводим три ортогональные категории аугментации для АР-предобучения: шум на уровне токенов (маскировка, случайная замена), перестановки последовательностей (предсказание справа налево, заполнение пропусков в середине) и предсказание со смещением целевого токена (\(x_{t+i}\) для \(i > 1\)). С помощью систематических аблаций мы обнаруживаем, что отдельные аугментации задерживают переобучение и снижают значение функции потерь на проверочном наборе по сравнению с базовым вариантом, причем случайная замена токенов достигает наилучшего минимального значения функции потерь среди отдельных методов. Комбинирование категорий аугментаций дополнительно снижает минимальное значение функции потерь на проверочном наборе. Наши эксперименты показывают, что аугментации данных смягчают неэффективность использования данных при АР-предобучении и предлагают многообещающее решение для режима ограниченности данных~\footnote{Весь код и данные доступны по адресу https://github.com/michaelchen-lab/data-augmentations-for-pretraining.}

English

As AI labs approach a data ceiling where compute capacity outpaces the rate of new high-quality text generation, language model pretraining is shifting toward a data-constrained, compute-abundant regime that demands productive multi-epoch training on fixed corpora. Standard autoregressive (AR) pretraining overfits severely in this setting, reaching its optimum early and then continuously deteriorating. We investigate training-time data augmentation as a regularizer to mitigate this overfitting and enable productive training for hundreds of epochs on the same data. We introduce three orthogonal categories of augmentation for AR pretraining: token-level noise (masking, random replacement), sequence permutations (right-to-left prediction, Fill-in-the-Middle), and target offset prediction (x_{t+i} for i > 1). Through systematic ablations, we find that individual augmentations delay overfitting and lower validation loss relative to the baseline, with random token replacement achieving the best minimum loss among individual methods. Combining augmentation categories further lowers the minimum validation loss. Our experiments demonstrate that data augmentations mitigate AR pretraining's data inefficiency and offer a promising solution to the data-constrained regime~\footnote{All code and data are available at https://github.com/ michaelchen-lab/ data-augmentations-for-pretraining.