AR-Diffusion: Авторегрессионная диффузионная модель для генерации текста
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation
May 16, 2023
Авторы: Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen
cs.AI
Аннотация
Диффузионные модели привлекли значительное внимание в области генерации изображений благодаря своей исключительной производительности. Их успех недавно был распространен на генерацию текста посредством одновременного создания всех токенов в последовательности. Однако естественный язык демонстрирует гораздо более выраженную последовательную зависимость по сравнению с изображениями, и большинство существующих языковых моделей обучаются с использованием авторегрессивного подхода слева направо. Чтобы учесть присущую естественному языку последовательную характеристику, мы представляем Авторегрессивную Диффузию (AR-Diffusion). AR-Diffusion обеспечивает, что генерация токенов справа зависит от уже сгенерированных токенов слева, что достигается за счет использования динамического числа шагов удаления шума, которые варьируются в зависимости от позиции токена. В результате токены слева проходят меньше шагов удаления шума, чем токены справа, что позволяет им генерироваться раньше и впоследствии влиять на генерацию токенов справа. В серии экспериментов на различных задачах генерации текста, включая суммаризацию текста, машинный перевод и генерацию здравого смысла, AR-Diffusion явно продемонстрировала превосходство над существующими диффузионными языковыми моделями, а также то, что она может быть в 100–600 раз быстрее при достижении сопоставимых результатов. Наш код будет опубликован в открытом доступе.
English
Diffusion models have gained significant attention in the realm of image
generation due to their exceptional performance. Their success has been
recently expanded to text generation via generating all tokens within a
sequence concurrently. However, natural language exhibits a far more pronounced
sequential dependency in comparison to images, and the majority of existing
language models are trained utilizing a left-to-right auto-regressive approach.
To account for the inherent sequential characteristic of natural language, we
introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that
the generation of tokens on the right depends on the generated ones on the
left, a mechanism achieved through employing a dynamic number of denoising
steps that vary based on token position. This results in tokens on the left
undergoing fewer denoising steps than those on the right, thereby enabling them
to generate earlier and subsequently influence the generation of tokens on the
right. In a series of experiments on various text generation tasks including
text summarization, machine translation, and common sense generation,
AR-Diffusion clearly demonstrated the superiority over existing diffusion
language models and that it can be 100timessim600times faster when
achieving comparable results. Our code will be publicly released.