AR-Diffusion: Modello di Diffusione Auto-Regressivo per la Generazione di Testo

Abstract

I modelli di diffusione hanno attirato una significativa attenzione nel campo della generazione di immagini grazie alle loro prestazioni eccezionali. Il loro successo è stato recentemente esteso alla generazione di testo attraverso la produzione simultanea di tutti i token all'interno di una sequenza. Tuttavia, il linguaggio naturale presenta una dipendenza sequenziale molto più marcata rispetto alle immagini, e la maggior parte dei modelli linguistici esistenti viene addestrata utilizzando un approccio auto-regressivo da sinistra a destra. Per tenere conto della caratteristica sequenziale intrinseca del linguaggio naturale, introduciamo la Diffusione Auto-Regressiva (AR-Diffusion). AR-Diffusion garantisce che la generazione dei token a destra dipenda da quelli generati a sinistra, un meccanismo ottenuto impiegando un numero dinamico di passaggi di denoising che variano in base alla posizione del token. Ciò comporta che i token a sinistra subiscano meno passaggi di denoising rispetto a quelli a destra, permettendo loro di generarsi prima e di influenzare successivamente la generazione dei token a destra. In una serie di esperimenti su vari compiti di generazione di testo, tra cui riassunto, traduzione automatica e generazione di senso comune, AR-Diffusion ha chiaramente dimostrato la sua superiorità rispetto ai modelli linguistici di diffusione esistenti e può essere da 100 a 600 volte più veloce nel raggiungere risultati comparabili. Il nostro codice sarà reso pubblico.

English

Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained utilizing a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated the superiority over existing diffusion language models and that it can be 100timessim600times faster when achieving comparable results. Our code will be publicly released.

AR-Diffusion: Modello di Diffusione Auto-Regressivo per la Generazione di Testo

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

Abstract

Support