DART: Rauschunterdrückender autoregressiver Transformer für skalierbare Text-zu-Bild-Generierung
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation
October 10, 2024
Autoren: Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
cs.AI
Zusammenfassung
Diffusionsmodelle sind zum dominanten Ansatz für die visuelle Generierung geworden. Sie werden trainiert, indem ein Markovscher Prozess zur Rauschunterdrückung verwendet wird, der allmählich Rauschen zum Eingang hinzufügt. Wir argumentieren, dass die Markovsche Eigenschaft die Fähigkeit der Modelle einschränkt, die Generierungsbahn vollständig zu nutzen, was zu Ineffizienzen während des Trainings und der Inferenz führt. In diesem Paper schlagen wir DART vor, ein auf Transformer basierendes Modell, das autoregressives (AR) und Diffusion innerhalb eines nicht-markovschen Rahmens vereint. DART unterdrückt iterativ Bildausschnitte räumlich und spektral unter Verwendung eines AR-Modells mit derselben Architektur wie Standard-Sprachmodelle. DART ist nicht auf Bildquantisierung angewiesen, was eine effektivere Bildmodellierung ermöglicht, während die Flexibilität erhalten bleibt. Darüber hinaus kann DART nahtlos mit Text- und Bilddaten in einem vereinheitlichten Modell trainiert werden. Unser Ansatz zeigt eine wettbewerbsfähige Leistung bei klassenbedingten und Text-zu-Bild-Generierungsaufgaben und bietet eine skalierbare, effiziente Alternative zu traditionellen Diffusionsmodellen. Durch diesen vereinheitlichten Rahmen setzt DART einen neuen Maßstab für skalierbare, hochwertige Bildsynthese.
English
Diffusion models have become the dominant approach for visual generation.
They are trained by denoising a Markovian process that gradually adds noise to
the input. We argue that the Markovian property limits the models ability to
fully utilize the generation trajectory, leading to inefficiencies during
training and inference. In this paper, we propose DART, a transformer-based
model that unifies autoregressive (AR) and diffusion within a non-Markovian
framework. DART iteratively denoises image patches spatially and spectrally
using an AR model with the same architecture as standard language models. DART
does not rely on image quantization, enabling more effective image modeling
while maintaining flexibility. Furthermore, DART seamlessly trains with both
text and image data in a unified model. Our approach demonstrates competitive
performance on class-conditioned and text-to-image generation tasks, offering a
scalable, efficient alternative to traditional diffusion models. Through this
unified framework, DART sets a new benchmark for scalable, high-quality image
synthesis.Summary
AI-Generated Summary