ChatPaper.aiChatPaper

DART: Denoising Autoregressive Transformer voor Schaalbare Tekst-naar-Afbeelding Generatie

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

October 10, 2024
Auteurs: Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
cs.AI

Samenvatting

Diffusiemodellen zijn de dominante benadering geworden voor visuele generatie. Ze worden getraind door het denoisen van een Markov-proces dat geleidelijk ruis toevoegt aan de invoer. We betogen dat de Markov-eigenschap de mogelijkheid van de modellen beperkt om volledig gebruik te maken van de generatietraject, wat leidt tot inefficiënties tijdens training en inferentie. In dit artikel stellen we DART voor, een op transformer gebaseerd model dat autoregressieve (AR) en diffusie verenigt binnen een niet-Markoviaans kader. DART denoist iteratief beeldpatches ruimtelijk en spectrally met behulp van een AR-model met dezelfde architectuur als standaard taalmodellen. DART vertrouwt niet op beeldkwantisering, wat effectievere beeldmodellering mogelijk maakt terwijl de flexibiliteit behouden blijft. Bovendien traint DART naadloos met zowel tekst- als beeldgegevens in een verenigd model. Onze aanpak toont competitieve prestaties op klasse-geconditioneerde en tekst-naar-beeld generatietaken, en biedt een schaalbaar, efficiënt alternatief voor traditionele diffusiemodellen. Via dit verenigde raamwerk stelt DART een nieuwe benchmark voor schaalbare, hoogwaardige beeldsynthese.
English
Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.

Summary

AI-Generated Summary

PDF252November 16, 2024