DART: Денойзинг авторегрессивный трансформер для масштабируемой генерации текста в изображение
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation
October 10, 2024
Авторы: Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
cs.AI
Аннотация
Модели диффузии стали доминирующим подходом для визуальной генерации. Они обучаются путем удаления шума из марковского процесса, который постепенно добавляет шум к входным данным. Мы считаем, что марковское свойство ограничивает способность моделей полностью использовать траекторию генерации, что приводит к неэффективностям во время обучения и вывода. В данной статье мы предлагаем DART, модель на основе трансформера, которая объединяет авторегрессию (AR) и диффузию в немарковской структуре. DART итеративно удаляет шум из областей изображения пространственно и спектрально с использованием модели AR с такой же архитектурой, как у стандартных языковых моделей. DART не зависит от квантования изображения, обеспечивая более эффективное моделирование изображений при сохранении гибкости. Более того, DART легко обучается как текстовыми, так и изображенческими данными в рамках единой модели. Наш подход продемонстрировал конкурентоспособную производительность на задачах генерации изображений с учетом класса и текста в изображение, предлагая масштабируемую, эффективную альтернативу традиционным моделям диффузии. Через эту объединенную структуру DART устанавливает новый стандарт для масштабируемого, высококачественного синтеза изображений.
English
Diffusion models have become the dominant approach for visual generation.
They are trained by denoising a Markovian process that gradually adds noise to
the input. We argue that the Markovian property limits the models ability to
fully utilize the generation trajectory, leading to inefficiencies during
training and inference. In this paper, we propose DART, a transformer-based
model that unifies autoregressive (AR) and diffusion within a non-Markovian
framework. DART iteratively denoises image patches spatially and spectrally
using an AR model with the same architecture as standard language models. DART
does not rely on image quantization, enabling more effective image modeling
while maintaining flexibility. Furthermore, DART seamlessly trains with both
text and image data in a unified model. Our approach demonstrates competitive
performance on class-conditioned and text-to-image generation tasks, offering a
scalable, efficient alternative to traditional diffusion models. Through this
unified framework, DART sets a new benchmark for scalable, high-quality image
synthesis.Summary
AI-Generated Summary