UT5: Vortraining eines nicht-autoregressiven T5-Modells mit entrolltem Entrauschen
UT5: Pretraining Non autoregressive T5 with unrolled denoising
November 14, 2023
Autoren: Mahmoud G. Salem, Jiayu Ye, Chu-Cheng Lin, Frederick Liu
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Transformer-basierten Large Language Models haben große Fortschritte in der natürlichen Sprachgenerierung erzielt. Um jedoch K Tokens zu dekodieren, benötigt ein autoregressives Modell K sequenzielle Vorwärtspassagen, was ein Leistungsengpass für große Sprachmodelle darstellen kann. Viele Forschungen zu nicht-autoregressiven (NAR) Modellen zielen darauf ab, diesen sequenziellen Engpass zu beheben, wobei sich viele auf eine spezialisierte Architektur in überwachten Benchmarks konzentriert haben. In dieser Arbeit haben wir das unbeaufsichtigte Vortraining für nicht-autoregressive T5-Modelle durch unrolled Denoising untersucht und deren State-of-the-Art-Ergebnisse in nachgelagerten Generierungsaufgaben wie SQuAD-Fragengenerierung und XSum gezeigt.
English
Recent advances in Transformer-based Large Language Models have made great
strides in natural language generation. However, to decode K tokens, an
autoregressive model needs K sequential forward passes, which may be a
performance bottleneck for large language models. Many non-autoregressive (NAR)
research are aiming to address this sequentiality bottleneck, albeit many have
focused on a dedicated architecture in supervised benchmarks. In this work, we
studied unsupervised pretraining for non auto-regressive T5 models via unrolled
denoising and shown its SoTA results in downstream generation tasks such as
SQuAD question generation and XSum.