ChatPaper.aiChatPaper

SpacTor-T5 : Pré-entraînement des modèles T5 avec corruption de segments et détection de jetons remplacés

SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection

January 24, 2024
Auteurs: Ke Ye, Heinrich Jiang, Afshin Rostamizadeh, Ayan Chakrabarti, Giulia DeSalvo, Jean-François Kagy, Lazaros Karydas, Gui Citovsky, Sanjiv Kumar
cs.AI

Résumé

Le pré-entraînement de grands modèles de langage est connu pour être extrêmement gourmand en ressources et souvent inefficace, sous-utilisant l'information encapsulée dans les séquences de texte d'entraînement. Dans cet article, nous présentons SpacTor, une nouvelle procédure d'entraînement composée de (1) un objectif hybride combinant la corruption de segments (SC) et la détection de remplacement de tokens (RTD), et (2) un curriculum en deux étapes qui optimise l'objectif hybride sur les premières itérations tau, puis passe à la perte SC standard. Nous montrons empiriquement que l'efficacité de l'objectif hybride est liée au programme de pré-entraînement en deux étapes, et nous fournissons une analyse approfondie expliquant pourquoi cela est le cas. Dans nos expériences avec des architectures encodeur-décodeur (T5) sur une variété de tâches de NLP, SpacTor-T5 offre les mêmes performances en aval que le pré-entraînement SC standard, tout en permettant une réduction de 50 % des itérations de pré-entraînement et de 40 % du nombre total de FLOPs. Alternativement, avec le même budget de calcul, nous constatons que SpacTor entraîne une amélioration significative des performances sur les benchmarks en aval.
English
Pre-training large language models is known to be extremely resource intensive and often times inefficient, under-utilizing the information encapsulated in the training text sequences. In this paper, we present SpacTor, a new training procedure consisting of (1) a hybrid objective combining span corruption (SC) and token replacement detection (RTD), and (2) a two-stage curriculum that optimizes the hybrid objective over the initial tau iterations, then transitions to standard SC loss. We show empirically that the effectiveness of the hybrid objective is tied to the two-stage pre-training schedule, and provide extensive analysis on why this is the case. In our experiments with encoder-decoder architectures (T5) on a variety of NLP tasks, SpacTor-T5 yields the same downstream performance as standard SC pre-training, while enabling a 50% reduction in pre-training iterations and 40% reduction in total FLOPs. Alternatively, given the same amount of computing budget, we find that SpacTor results in significantly improved downstream benchmark performance.
PDF132December 15, 2024