DART: Rauschunterdrückender autoregressiver Transformer für skalierbare Text-zu-Bild-Generierung

papers.abstract

Diffusionsmodelle sind zum dominanten Ansatz für die visuelle Generierung geworden. Sie werden trainiert, indem ein Markovscher Prozess zur Rauschunterdrückung verwendet wird, der allmählich Rauschen zum Eingang hinzufügt. Wir argumentieren, dass die Markovsche Eigenschaft die Fähigkeit der Modelle einschränkt, die Generierungsbahn vollständig zu nutzen, was zu Ineffizienzen während des Trainings und der Inferenz führt. In diesem Paper schlagen wir DART vor, ein auf Transformer basierendes Modell, das autoregressives (AR) und Diffusion innerhalb eines nicht-markovschen Rahmens vereint. DART unterdrückt iterativ Bildausschnitte räumlich und spektral unter Verwendung eines AR-Modells mit derselben Architektur wie Standard-Sprachmodelle. DART ist nicht auf Bildquantisierung angewiesen, was eine effektivere Bildmodellierung ermöglicht, während die Flexibilität erhalten bleibt. Darüber hinaus kann DART nahtlos mit Text- und Bilddaten in einem vereinheitlichten Modell trainiert werden. Unser Ansatz zeigt eine wettbewerbsfähige Leistung bei klassenbedingten und Text-zu-Bild-Generierungsaufgaben und bietet eine skalierbare, effiziente Alternative zu traditionellen Diffusionsmodellen. Durch diesen vereinheitlichten Rahmen setzt DART einen neuen Maßstab für skalierbare, hochwertige Bildsynthese.

English

Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.

DART: Rauschunterdrückender autoregressiver Transformer für skalierbare Text-zu-Bild-Generierung

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

papers.abstract

Support