SpacTor-T5: Pré-treinamento de Modelos T5 com Corrupção de Span e Detecção de Token Substituído

Resumo

O pré-treinamento de grandes modelos de linguagem é conhecido por ser extremamente intensivo em recursos e, muitas vezes, ineficiente, subutilizando as informações encapsuladas nas sequências de texto de treinamento. Neste artigo, apresentamos o SpacTor, um novo procedimento de treinamento que consiste em (1) um objetivo híbrido que combina corrupção de span (SC) e detecção de substituição de tokens (RTD), e (2) um currículo de duas etapas que otimiza o objetivo híbrido durante as primeiras iterações tau, e então faz a transição para a perda padrão de SC. Demonstramos empiricamente que a eficácia do objetivo híbrido está ligada ao cronograma de pré-treinamento de duas etapas, e fornecemos uma análise extensa sobre o motivo disso. Em nossos experimentos com arquiteturas encoder-decoder (T5) em uma variedade de tarefas de NLP, o SpacTor-T5 alcança o mesmo desempenho downstream que o pré-treinamento padrão com SC, enquanto permite uma redução de 50% nas iterações de pré-treinamento e uma redução de 40% no total de FLOPs. Alternativamente, dado o mesmo orçamento de computação, descobrimos que o SpacTor resulta em um desempenho significativamente melhorado em benchmarks downstream.

English

Pre-training large language models is known to be extremely resource intensive and often times inefficient, under-utilizing the information encapsulated in the training text sequences. In this paper, we present SpacTor, a new training procedure consisting of (1) a hybrid objective combining span corruption (SC) and token replacement detection (RTD), and (2) a two-stage curriculum that optimizes the hybrid objective over the initial tau iterations, then transitions to standard SC loss. We show empirically that the effectiveness of the hybrid objective is tied to the two-stage pre-training schedule, and provide extensive analysis on why this is the case. In our experiments with encoder-decoder architectures (T5) on a variety of NLP tasks, SpacTor-T5 yields the same downstream performance as standard SC pre-training, while enabling a 50% reduction in pre-training iterations and 40% reduction in total FLOPs. Alternatively, given the same amount of computing budget, we find that SpacTor results in significantly improved downstream benchmark performance.

SpacTor-T5: Pré-treinamento de Modelos T5 com Corrupção de Span e Detecção de Token Substituído

SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection

Resumo

Support