ChatPaper.aiChatPaper

UT5: 언롤드 디노이징을 활용한 비자기회귀적 T5 사전 학습

UT5: Pretraining Non autoregressive T5 with unrolled denoising

November 14, 2023
저자: Mahmoud G. Salem, Jiayu Ye, Chu-Cheng Lin, Frederick Liu
cs.AI

초록

트랜스포머 기반 대형 언어 모델의 최근 발전은 자연어 생성 분야에서 큰 진전을 이루었습니다. 그러나 K개의 토큰을 디코딩하기 위해, 자기회귀 모델은 K번의 순차적 순방향 패스가 필요하며, 이는 대형 언어 모델의 성능 병목 현상이 될 수 있습니다. 많은 비자기회귀(NAR) 연구들이 이러한 순차성 병목 현상을 해결하기 위해 노력하고 있지만, 대부분이 지도 학습 벤치마크에서 전용 아키텍처에 초점을 맞추고 있습니다. 본 연구에서는 비자기회귀 T5 모델을 위한 비지도 사전 학습을 언롤드 디노이징을 통해 연구하고, SQuAD 질문 생성 및 XSum과 같은 하류 생성 작업에서 최첨단(SoTA) 결과를 보여주었습니다.
English
Recent advances in Transformer-based Large Language Models have made great strides in natural language generation. However, to decode K tokens, an autoregressive model needs K sequential forward passes, which may be a performance bottleneck for large language models. Many non-autoregressive (NAR) research are aiming to address this sequentiality bottleneck, albeit many have focused on a dedicated architecture in supervised benchmarks. In this work, we studied unsupervised pretraining for non auto-regressive T5 models via unrolled denoising and shown its SoTA results in downstream generation tasks such as SQuAD question generation and XSum.
PDF80December 15, 2024