AR-Diffusion: 텍스트 생성을 위한 자기회귀 확산 모델
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation
May 16, 2023
저자: Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen
cs.AI
초록
디퓨전 모델은 뛰어난 성능으로 인해 이미지 생성 분야에서 상당한 주목을 받아왔습니다. 최근에는 시퀀스 내 모든 토큰을 동시에 생성하는 방식을 통해 텍스트 생성 분야로도 그 성공을 확장하고 있습니다. 그러나 자연어는 이미지에 비해 훨씬 더 강한 순차적 의존성을 보이며, 대부분의 기존 언어 모델은 왼쪽에서 오른쪽으로의 자기회귀(auto-regressive) 방식을 활용해 학습됩니다. 자연어의 본질적인 순차적 특성을 고려하기 위해, 우리는 자기회귀 디퓨전(Auto-Regressive Diffusion, AR-Diffusion)을 제안합니다. AR-Diffusion은 오른쪽 토큰의 생성이 왼쪽에 생성된 토큰에 의존하도록 보장하며, 이는 토큰 위치에 따라 동적으로 변하는 디노이징(denoising) 단계 수를 활용해 구현됩니다. 이를 통해 왼쪽 토큰은 오른쪽 토큰보다 더 적은 디노이징 단계를 거치게 되어 더 빨리 생성되고, 이후 오른쪽 토큰의 생성에 영향을 미칠 수 있습니다. 텍스트 요약, 기계 번역, 상식 생성 등 다양한 텍스트 생성 작업에 대한 일련의 실험에서 AR-Diffusion은 기존 디퓨전 언어 모델을 명확히 능가하는 성능을 보였으며, 동등한 결과를 달성할 때 최대 100배에서 600배까지 더 빠른 속도를 보였습니다. 우리의 코드는 공개될 예정입니다.
English
Diffusion models have gained significant attention in the realm of image
generation due to their exceptional performance. Their success has been
recently expanded to text generation via generating all tokens within a
sequence concurrently. However, natural language exhibits a far more pronounced
sequential dependency in comparison to images, and the majority of existing
language models are trained utilizing a left-to-right auto-regressive approach.
To account for the inherent sequential characteristic of natural language, we
introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that
the generation of tokens on the right depends on the generated ones on the
left, a mechanism achieved through employing a dynamic number of denoising
steps that vary based on token position. This results in tokens on the left
undergoing fewer denoising steps than those on the right, thereby enabling them
to generate earlier and subsequently influence the generation of tokens on the
right. In a series of experiments on various text generation tasks including
text summarization, machine translation, and common sense generation,
AR-Diffusion clearly demonstrated the superiority over existing diffusion
language models and that it can be 100timessim600times faster when
achieving comparable results. Our code will be publicly released.