UT5: Pre-addestramento di T5 non autoregressivo con denoising srotolato

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni basati su Transformer hanno compiuto notevoli passi avanti nella generazione del linguaggio naturale. Tuttavia, per decodificare K token, un modello autoregressivo richiede K passaggi in avanti sequenziali, il che può rappresentare un collo di bottiglia per le prestazioni dei modelli linguistici di grandi dimensioni. Molte ricerche sui modelli non autoregressivi (NAR) mirano a risolvere questo problema di sequenzialità, sebbene molte si siano concentrate su architetture dedicate in benchmark supervisionati. In questo lavoro, abbiamo studiato il pretraining non supervisionato per modelli T5 non autoregressivi tramite denoising srotolato e dimostrato i suoi risultati all'avanguardia in compiti di generazione downstream come la generazione di domande su SQuAD e XSum.

English

Recent advances in Transformer-based Large Language Models have made great strides in natural language generation. However, to decode K tokens, an autoregressive model needs K sequential forward passes, which may be a performance bottleneck for large language models. Many non-autoregressive (NAR) research are aiming to address this sequentiality bottleneck, albeit many have focused on a dedicated architecture in supervised benchmarks. In this work, we studied unsupervised pretraining for non auto-regressive T5 models via unrolled denoising and shown its SoTA results in downstream generation tasks such as SQuAD question generation and XSum.

UT5: Pre-addestramento di T5 non autoregressivo con denoising srotolato

UT5: Pretraining Non autoregressive T5 with unrolled denoising

Abstract

Support