ChatPaper.aiChatPaper

UT5: Предобучение неавторегрессивной модели T5 с развернутым шумоподавлением

UT5: Pretraining Non autoregressive T5 with unrolled denoising

November 14, 2023
Авторы: Mahmoud G. Salem, Jiayu Ye, Chu-Cheng Lin, Frederick Liu
cs.AI

Аннотация

Последние достижения в области крупных языковых моделей на основе архитектуры Transformer значительно продвинули вперед генерацию естественного языка. Однако для декодирования K токенов авторегрессивной модели требуется K последовательных прямых проходов, что может стать узким местом в производительности для больших языковых моделей. Многие исследования в области неавторегрессивных (NAR) моделей направлены на устранение этого ограничения, связанного с последовательностью, хотя многие из них сосредоточены на специализированных архитектурах в рамках контролируемых бенчмарков. В данной работе мы изучили неконтролируемое предварительное обучение для неавторегрессивных моделей T5 с использованием метода развернутого шумоподавления и продемонстрировали их передовые результаты в задачах генерации, таких как генерация вопросов на основе SQuAD и суммаризация текста в XSum.
English
Recent advances in Transformer-based Large Language Models have made great strides in natural language generation. However, to decode K tokens, an autoregressive model needs K sequential forward passes, which may be a performance bottleneck for large language models. Many non-autoregressive (NAR) research are aiming to address this sequentiality bottleneck, albeit many have focused on a dedicated architecture in supervised benchmarks. In this work, we studied unsupervised pretraining for non auto-regressive T5 models via unrolled denoising and shown its SoTA results in downstream generation tasks such as SQuAD question generation and XSum.
PDF80December 15, 2024