SpacTor-T5: Pré-treinamento de Modelos T5 com Corrupção de Span e Detecção de Token Substituído
SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection
January 24, 2024
Autores: Ke Ye, Heinrich Jiang, Afshin Rostamizadeh, Ayan Chakrabarti, Giulia DeSalvo, Jean-François Kagy, Lazaros Karydas, Gui Citovsky, Sanjiv Kumar
cs.AI
Resumo
O pré-treinamento de grandes modelos de linguagem é conhecido por ser extremamente intensivo em recursos e, muitas vezes, ineficiente, subutilizando as informações encapsuladas nas sequências de texto de treinamento. Neste artigo, apresentamos o SpacTor, um novo procedimento de treinamento que consiste em (1) um objetivo híbrido que combina corrupção de span (SC) e detecção de substituição de tokens (RTD), e (2) um currículo de duas etapas que otimiza o objetivo híbrido durante as primeiras iterações tau, e então faz a transição para a perda padrão de SC. Demonstramos empiricamente que a eficácia do objetivo híbrido está ligada ao cronograma de pré-treinamento de duas etapas, e fornecemos uma análise extensa sobre o motivo disso. Em nossos experimentos com arquiteturas encoder-decoder (T5) em uma variedade de tarefas de NLP, o SpacTor-T5 alcança o mesmo desempenho downstream que o pré-treinamento padrão com SC, enquanto permite uma redução de 50% nas iterações de pré-treinamento e uma redução de 40% no total de FLOPs. Alternativamente, dado o mesmo orçamento de computação, descobrimos que o SpacTor resulta em um desempenho significativamente melhorado em benchmarks downstream.
English
Pre-training large language models is known to be extremely resource
intensive and often times inefficient, under-utilizing the information
encapsulated in the training text sequences. In this paper, we present SpacTor,
a new training procedure consisting of (1) a hybrid objective combining span
corruption (SC) and token replacement detection (RTD), and (2) a two-stage
curriculum that optimizes the hybrid objective over the initial tau
iterations, then transitions to standard SC loss. We show empirically that the
effectiveness of the hybrid objective is tied to the two-stage pre-training
schedule, and provide extensive analysis on why this is the case. In our
experiments with encoder-decoder architectures (T5) on a variety of NLP tasks,
SpacTor-T5 yields the same downstream performance as standard SC pre-training,
while enabling a 50% reduction in pre-training iterations and 40% reduction in
total FLOPs. Alternatively, given the same amount of computing budget, we find
that SpacTor results in significantly improved downstream benchmark
performance.