ChatPaper.aiChatPaper

AR-Diffusion: Autoregressives Diffusionsmodell für die Textgenerierung

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

May 16, 2023
Autoren: Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen
cs.AI

Zusammenfassung

Diffusionsmodelle haben im Bereich der Bildgenerierung aufgrund ihrer außergewöhnlichen Leistung erhebliche Aufmerksamkeit erlangt. Ihr Erfolg wurde kürzlich auf die Textgenerierung ausgeweitet, indem alle Token innerhalb einer Sequenz gleichzeitig generiert werden. Natürliche Sprache weist jedoch im Vergleich zu Bildern eine weitaus ausgeprägtere sequenzielle Abhängigkeit auf, und die Mehrheit der bestehenden Sprachmodelle wird unter Verwendung eines links-nach-rechts autoregressiven Ansatzes trainiert. Um der inhärenten sequenziellen Eigenschaft natürlicher Sprache Rechnung zu tragen, führen wir Auto-Regressive Diffusion (AR-Diffusion) ein. AR-Diffusion stellt sicher, dass die Generierung von Token auf der rechten Seite von den bereits generierten Token auf der linken Seite abhängt, ein Mechanismus, der durch den Einsatz einer dynamischen Anzahl von Denoising-Schritten erreicht wird, die je nach Token-Position variieren. Dies führt dazu, dass Token auf der linken Seite weniger Denoising-Schritte durchlaufen als die auf der rechten Seite, wodurch sie früher generiert werden und anschließend die Generierung der Token auf der rechten Seite beeinflussen können. In einer Reihe von Experimenten zu verschiedenen Textgenerierungsaufgaben, einschließlich Textzusammenfassung, maschineller Übersetzung und Common-Sense-Generierung, hat AR-Diffusion deutlich die Überlegenheit gegenüber bestehenden Diffusionssprachmodellen gezeigt und kann bis zu 100-mal bis 600-mal schneller sein, wenn vergleichbare Ergebnisse erzielt werden. Unser Code wird öffentlich zugänglich gemacht.
English
Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained utilizing a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated the superiority over existing diffusion language models and that it can be 100timessim600times faster when achieving comparable results. Our code will be publicly released.
PDF33December 15, 2024