AR-Diffusion: Modello di Diffusione Auto-Regressivo per la Generazione di Testo
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation
May 16, 2023
Autori: Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen
cs.AI
Abstract
I modelli di diffusione hanno attirato una significativa attenzione nel campo della generazione di immagini grazie alle loro prestazioni eccezionali. Il loro successo è stato recentemente esteso alla generazione di testo attraverso la produzione simultanea di tutti i token all'interno di una sequenza. Tuttavia, il linguaggio naturale presenta una dipendenza sequenziale molto più marcata rispetto alle immagini, e la maggior parte dei modelli linguistici esistenti viene addestrata utilizzando un approccio auto-regressivo da sinistra a destra. Per tenere conto della caratteristica sequenziale intrinseca del linguaggio naturale, introduciamo la Diffusione Auto-Regressiva (AR-Diffusion). AR-Diffusion garantisce che la generazione dei token a destra dipenda da quelli generati a sinistra, un meccanismo ottenuto impiegando un numero dinamico di passaggi di denoising che variano in base alla posizione del token. Ciò comporta che i token a sinistra subiscano meno passaggi di denoising rispetto a quelli a destra, permettendo loro di generarsi prima e di influenzare successivamente la generazione dei token a destra. In una serie di esperimenti su vari compiti di generazione di testo, tra cui riassunto, traduzione automatica e generazione di senso comune, AR-Diffusion ha chiaramente dimostrato la sua superiorità rispetto ai modelli linguistici di diffusione esistenti e può essere da 100 a 600 volte più veloce nel raggiungere risultati comparabili. Il nostro codice sarà reso pubblico.
English
Diffusion models have gained significant attention in the realm of image
generation due to their exceptional performance. Their success has been
recently expanded to text generation via generating all tokens within a
sequence concurrently. However, natural language exhibits a far more pronounced
sequential dependency in comparison to images, and the majority of existing
language models are trained utilizing a left-to-right auto-regressive approach.
To account for the inherent sequential characteristic of natural language, we
introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that
the generation of tokens on the right depends on the generated ones on the
left, a mechanism achieved through employing a dynamic number of denoising
steps that vary based on token position. This results in tokens on the left
undergoing fewer denoising steps than those on the right, thereby enabling them
to generate earlier and subsequently influence the generation of tokens on the
right. In a series of experiments on various text generation tasks including
text summarization, machine translation, and common sense generation,
AR-Diffusion clearly demonstrated the superiority over existing diffusion
language models and that it can be 100timessim600times faster when
achieving comparable results. Our code will be publicly released.