ChatPaper.aiChatPaper

DART: Denoising Autoregressive Transformer per la Generazione Scalabile di Testo-Immagine

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

October 10, 2024
Autori: Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
cs.AI

Abstract

I modelli di diffusione sono diventati l'approccio dominante per la generazione visuale. Vengono addestrati attraverso il denoising di un processo markoviano che aggiunge gradualmente rumore all'input. Sosteniamo che la proprietà markoviana limiti la capacità dei modelli di utilizzare appieno la traiettoria di generazione, portando a inefficienze durante l'addestramento e l'inferenza. In questo articolo, proponiamo DART, un modello basato su transformer che unisce l'autoregressione (AR) e la diffusione all'interno di un framework non markoviano. DART denoisa in modo iterativo le patch dell'immagine spazialmente e spettralmente utilizzando un modello AR con la stessa architettura dei modelli di linguaggio standard. DART non si basa sulla quantizzazione dell'immagine, consentendo una modellazione dell'immagine più efficace pur mantenendo flessibilità. Inoltre, DART si addestra in modo trasparente con dati sia testuali che di immagini in un modello unificato. Il nostro approccio dimostra prestazioni competitive su compiti di generazione condizionati alla classe e da testo a immagine, offrendo un'alternativa scalabile ed efficiente ai modelli di diffusione tradizionali. Attraverso questo framework unificato, DART stabilisce un nuovo punto di riferimento per la sintesi di immagini scalabile e di alta qualità.
English
Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.
PDF262November 16, 2024