SpacTor-T5: Предварительное обучение моделей T5 с использованием порчи отрезков и обнаружения заменённых токенов
SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection
January 24, 2024
Авторы: Ke Ye, Heinrich Jiang, Afshin Rostamizadeh, Ayan Chakrabarti, Giulia DeSalvo, Jean-François Kagy, Lazaros Karydas, Gui Citovsky, Sanjiv Kumar
cs.AI
Аннотация
Предварительное обучение крупных языковых моделей известно своей чрезвычайной ресурсоемкостью и зачастую неэффективностью, недостаточно полно используя информацию, заключенную в обучающих текстовых последовательностях. В данной работе мы представляем SpacTor — новый подход к обучению, состоящий из (1) гибридной функции потерь, объединяющей порчу отрезков (span corruption, SC) и обнаружение замены токенов (replacement token detection, RTD), и (2) двухэтапной учебной программы, которая оптимизирует гибридную функцию потерь на начальных tau итерациях, а затем переходит к стандартной функции потерь SC. Мы эмпирически показываем, что эффективность гибридной функции потерь связана с двухэтапным графиком предварительного обучения, и проводим детальный анализ причин этого. В наших экспериментах с архитектурами типа "кодировщик-декодировщик" (T5) на различных задачах обработки естественного языка SpacTor-T5 демонстрирует такую же производительность на конечных задачах, как и стандартное предварительное обучение SC, при этом позволяя сократить количество итераций предварительного обучения на 50% и общее количество операций с плавающей запятой (FLOPs) на 40%. Кроме того, при одинаковом вычислительном бюджете мы обнаруживаем, что SpacTor приводит к значительному улучшению производительности на эталонных задачах.
English
Pre-training large language models is known to be extremely resource
intensive and often times inefficient, under-utilizing the information
encapsulated in the training text sequences. In this paper, we present SpacTor,
a new training procedure consisting of (1) a hybrid objective combining span
corruption (SC) and token replacement detection (RTD), and (2) a two-stage
curriculum that optimizes the hybrid objective over the initial tau
iterations, then transitions to standard SC loss. We show empirically that the
effectiveness of the hybrid objective is tied to the two-stage pre-training
schedule, and provide extensive analysis on why this is the case. In our
experiments with encoder-decoder architectures (T5) on a variety of NLP tasks,
SpacTor-T5 yields the same downstream performance as standard SC pre-training,
while enabling a 50% reduction in pre-training iterations and 40% reduction in
total FLOPs. Alternatively, given the same amount of computing budget, we find
that SpacTor results in significantly improved downstream benchmark
performance.