ChatPaper.aiChatPaper

AR-Diffusion : Modèle de diffusion auto-régressif pour la génération de texte

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

May 16, 2023
Auteurs: Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen
cs.AI

Résumé

Les modèles de diffusion ont suscité un intérêt considérable dans le domaine de la génération d'images en raison de leurs performances exceptionnelles. Leur succès a récemment été étendu à la génération de texte via la production simultanée de tous les tokens d'une séquence. Cependant, le langage naturel présente une dépendance séquentielle bien plus marquée que les images, et la majorité des modèles de langage existants sont entraînés en utilisant une approche auto-régressive de gauche à droite. Pour tenir compte de la caractéristique séquentielle inhérente au langage naturel, nous introduisons la Diffusion Auto-Régressive (AR-Diffusion). AR-Diffusion garantit que la génération des tokens à droite dépend de ceux générés à gauche, un mécanisme réalisé en employant un nombre dynamique d'étapes de débruitage qui varient en fonction de la position du token. Il en résulte que les tokens à gauche subissent moins d'étapes de débruitage que ceux à droite, leur permettant ainsi d'être générés plus tôt et d'influencer ensuite la génération des tokens à droite. Dans une série d'expériences sur diverses tâches de génération de texte, incluant la synthèse de texte, la traduction automatique et la génération de bon sens, AR-Diffusion a clairement démontré sa supériorité par rapport aux modèles de diffusion de langage existants, et peut être de 100 à 600 fois plus rapide tout en atteignant des résultats comparables. Notre code sera rendu public.
English
Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained utilizing a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated the superiority over existing diffusion language models and that it can be 100timessim600times faster when achieving comparable results. Our code will be publicly released.
PDF33December 15, 2024