UT5: Предобучение неавторегрессивной модели T5 с развернутым шумоподавлением
UT5: Pretraining Non autoregressive T5 with unrolled denoising
November 14, 2023
Авторы: Mahmoud G. Salem, Jiayu Ye, Chu-Cheng Lin, Frederick Liu
cs.AI
Аннотация
Последние достижения в области крупных языковых моделей на основе архитектуры Transformer значительно продвинули вперед генерацию естественного языка. Однако для декодирования K токенов авторегрессивной модели требуется K последовательных прямых проходов, что может стать узким местом в производительности для больших языковых моделей. Многие исследования в области неавторегрессивных (NAR) моделей направлены на устранение этого ограничения, связанного с последовательностью, хотя многие из них сосредоточены на специализированных архитектурах в рамках контролируемых бенчмарков. В данной работе мы изучили неконтролируемое предварительное обучение для неавторегрессивных моделей T5 с использованием метода развернутого шумоподавления и продемонстрировали их передовые результаты в задачах генерации, таких как генерация вопросов на основе SQuAD и суммаризация текста в XSum.
English
Recent advances in Transformer-based Large Language Models have made great
strides in natural language generation. However, to decode K tokens, an
autoregressive model needs K sequential forward passes, which may be a
performance bottleneck for large language models. Many non-autoregressive (NAR)
research are aiming to address this sequentiality bottleneck, albeit many have
focused on a dedicated architecture in supervised benchmarks. In this work, we
studied unsupervised pretraining for non auto-regressive T5 models via unrolled
denoising and shown its SoTA results in downstream generation tasks such as
SQuAD question generation and XSum.