SpacTor-T5: Предварительное обучение моделей T5 с использованием порчи отрезков и обнаружения заменённых токенов

Аннотация

Предварительное обучение крупных языковых моделей известно своей чрезвычайной ресурсоемкостью и зачастую неэффективностью, недостаточно полно используя информацию, заключенную в обучающих текстовых последовательностях. В данной работе мы представляем SpacTor — новый подход к обучению, состоящий из (1) гибридной функции потерь, объединяющей порчу отрезков (span corruption, SC) и обнаружение замены токенов (replacement token detection, RTD), и (2) двухэтапной учебной программы, которая оптимизирует гибридную функцию потерь на начальных tau итерациях, а затем переходит к стандартной функции потерь SC. Мы эмпирически показываем, что эффективность гибридной функции потерь связана с двухэтапным графиком предварительного обучения, и проводим детальный анализ причин этого. В наших экспериментах с архитектурами типа "кодировщик-декодировщик" (T5) на различных задачах обработки естественного языка SpacTor-T5 демонстрирует такую же производительность на конечных задачах, как и стандартное предварительное обучение SC, при этом позволяя сократить количество итераций предварительного обучения на 50% и общее количество операций с плавающей запятой (FLOPs) на 40%. Кроме того, при одинаковом вычислительном бюджете мы обнаруживаем, что SpacTor приводит к значительному улучшению производительности на эталонных задачах.

English

Pre-training large language models is known to be extremely resource intensive and often times inefficient, under-utilizing the information encapsulated in the training text sequences. In this paper, we present SpacTor, a new training procedure consisting of (1) a hybrid objective combining span corruption (SC) and token replacement detection (RTD), and (2) a two-stage curriculum that optimizes the hybrid objective over the initial tau iterations, then transitions to standard SC loss. We show empirically that the effectiveness of the hybrid objective is tied to the two-stage pre-training schedule, and provide extensive analysis on why this is the case. In our experiments with encoder-decoder architectures (T5) on a variety of NLP tasks, SpacTor-T5 yields the same downstream performance as standard SC pre-training, while enabling a 50% reduction in pre-training iterations and 40% reduction in total FLOPs. Alternatively, given the same amount of computing budget, we find that SpacTor results in significantly improved downstream benchmark performance.

SpacTor-T5: Предварительное обучение моделей T5 с использованием порчи отрезков и обнаружения заменённых токенов

SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection

Аннотация

Support