SpacTor-T5: Vortraining von T5-Modellen mit Span Corruption und Replaced Token Detection
SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection
January 24, 2024
Autoren: Ke Ye, Heinrich Jiang, Afshin Rostamizadeh, Ayan Chakrabarti, Giulia DeSalvo, Jean-François Kagy, Lazaros Karydas, Gui Citovsky, Sanjiv Kumar
cs.AI
Zusammenfassung
Das Pre-Training großer Sprachmodelle ist bekanntlich äußerst ressourcenintensiv und oft ineffizient, da die in den Trainingssequenzen enthaltenen Informationen nicht optimal genutzt werden. In diesem Artikel stellen wir SpacTor vor, ein neues Trainingsverfahren, das aus (1) einem hybriden Ziel besteht, das Span Corruption (SC) und Token Replacement Detection (RTD) kombiniert, und (2) einem zweistufigen Curriculum, das das hybride Ziel über die ersten tau Iterationen optimiert und dann zum Standard-SC-Loss übergeht. Wir zeigen empirisch, dass die Wirksamkeit des hybriden Ziels mit dem zweistufigen Pre-Training-Zeitplan verbunden ist, und liefern eine umfangreiche Analyse, warum dies der Fall ist. In unseren Experimenten mit Encoder-Decoder-Architekturen (T5) auf einer Vielzahl von NLP-Aufgaben erzielt SpacTor-T5 die gleiche Downstream-Leistung wie das Standard-SC-Pre-Training, ermöglicht jedoch eine Reduzierung der Pre-Training-Iterationen um 50 % und der gesamten FLOPs um 40 %. Alternativ führen wir bei gleichem Rechenbudget zu einer signifikant verbesserten Downstream-Benchmark-Leistung.
English
Pre-training large language models is known to be extremely resource
intensive and often times inefficient, under-utilizing the information
encapsulated in the training text sequences. In this paper, we present SpacTor,
a new training procedure consisting of (1) a hybrid objective combining span
corruption (SC) and token replacement detection (RTD), and (2) a two-stage
curriculum that optimizes the hybrid objective over the initial tau
iterations, then transitions to standard SC loss. We show empirically that the
effectiveness of the hybrid objective is tied to the two-stage pre-training
schedule, and provide extensive analysis on why this is the case. In our
experiments with encoder-decoder architectures (T5) on a variety of NLP tasks,
SpacTor-T5 yields the same downstream performance as standard SC pre-training,
while enabling a 50% reduction in pre-training iterations and 40% reduction in
total FLOPs. Alternatively, given the same amount of computing budget, we find
that SpacTor results in significantly improved downstream benchmark
performance.