UT5: Pretrenamiento de T5 no autoregresivo con desruido desenrollado
UT5: Pretraining Non autoregressive T5 with unrolled denoising
November 14, 2023
Autores: Mahmoud G. Salem, Jiayu Ye, Chu-Cheng Lin, Frederick Liu
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje grande basados en Transformers han logrado grandes progresos en la generación de lenguaje natural. Sin embargo, para decodificar K tokens, un modelo autoregresivo necesita K pasos hacia adelante secuenciales, lo que puede representar un cuello de botella en el rendimiento para los modelos de lenguaje grande. Muchas investigaciones sobre modelos no autoregresivos (NAR) buscan abordar este cuello de botella de secuencialidad, aunque muchas se han centrado en arquitecturas dedicadas en benchmarks supervisados. En este trabajo, estudiamos el preentrenamiento no supervisado para modelos T5 no autoregresivos mediante desenrollado de denoising y demostramos sus resultados de vanguardia en tareas de generación posteriores, como la generación de preguntas en SQuAD y XSum.
English
Recent advances in Transformer-based Large Language Models have made great
strides in natural language generation. However, to decode K tokens, an
autoregressive model needs K sequential forward passes, which may be a
performance bottleneck for large language models. Many non-autoregressive (NAR)
research are aiming to address this sequentiality bottleneck, albeit many have
focused on a dedicated architecture in supervised benchmarks. In this work, we
studied unsupervised pretraining for non auto-regressive T5 models via unrolled
denoising and shown its SoTA results in downstream generation tasks such as
SQuAD question generation and XSum.