ChatPaper.aiChatPaper

SpacTor-T5: Vortraining von T5-Modellen mit Span Corruption und Replaced Token Detection

SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection

January 24, 2024
Autoren: Ke Ye, Heinrich Jiang, Afshin Rostamizadeh, Ayan Chakrabarti, Giulia DeSalvo, Jean-François Kagy, Lazaros Karydas, Gui Citovsky, Sanjiv Kumar
cs.AI

Zusammenfassung

Das Pre-Training großer Sprachmodelle ist bekanntlich äußerst ressourcenintensiv und oft ineffizient, da die in den Trainingssequenzen enthaltenen Informationen nicht optimal genutzt werden. In diesem Artikel stellen wir SpacTor vor, ein neues Trainingsverfahren, das aus (1) einem hybriden Ziel besteht, das Span Corruption (SC) und Token Replacement Detection (RTD) kombiniert, und (2) einem zweistufigen Curriculum, das das hybride Ziel über die ersten tau Iterationen optimiert und dann zum Standard-SC-Loss übergeht. Wir zeigen empirisch, dass die Wirksamkeit des hybriden Ziels mit dem zweistufigen Pre-Training-Zeitplan verbunden ist, und liefern eine umfangreiche Analyse, warum dies der Fall ist. In unseren Experimenten mit Encoder-Decoder-Architekturen (T5) auf einer Vielzahl von NLP-Aufgaben erzielt SpacTor-T5 die gleiche Downstream-Leistung wie das Standard-SC-Pre-Training, ermöglicht jedoch eine Reduzierung der Pre-Training-Iterationen um 50 % und der gesamten FLOPs um 40 %. Alternativ führen wir bei gleichem Rechenbudget zu einer signifikant verbesserten Downstream-Benchmark-Leistung.
English
Pre-training large language models is known to be extremely resource intensive and often times inefficient, under-utilizing the information encapsulated in the training text sequences. In this paper, we present SpacTor, a new training procedure consisting of (1) a hybrid objective combining span corruption (SC) and token replacement detection (RTD), and (2) a two-stage curriculum that optimizes the hybrid objective over the initial tau iterations, then transitions to standard SC loss. We show empirically that the effectiveness of the hybrid objective is tied to the two-stage pre-training schedule, and provide extensive analysis on why this is the case. In our experiments with encoder-decoder architectures (T5) on a variety of NLP tasks, SpacTor-T5 yields the same downstream performance as standard SC pre-training, while enabling a 50% reduction in pre-training iterations and 40% reduction in total FLOPs. Alternatively, given the same amount of computing budget, we find that SpacTor results in significantly improved downstream benchmark performance.
PDF132December 15, 2024