DART: Денойзинг авторегрессивный трансформер для масштабируемой генерации текста в изображение

Аннотация

Модели диффузии стали доминирующим подходом для визуальной генерации. Они обучаются путем удаления шума из марковского процесса, который постепенно добавляет шум к входным данным. Мы считаем, что марковское свойство ограничивает способность моделей полностью использовать траекторию генерации, что приводит к неэффективностям во время обучения и вывода. В данной статье мы предлагаем DART, модель на основе трансформера, которая объединяет авторегрессию (AR) и диффузию в немарковской структуре. DART итеративно удаляет шум из областей изображения пространственно и спектрально с использованием модели AR с такой же архитектурой, как у стандартных языковых моделей. DART не зависит от квантования изображения, обеспечивая более эффективное моделирование изображений при сохранении гибкости. Более того, DART легко обучается как текстовыми, так и изображенческими данными в рамках единой модели. Наш подход продемонстрировал конкурентоспособную производительность на задачах генерации изображений с учетом класса и текста в изображение, предлагая масштабируемую, эффективную альтернативу традиционным моделям диффузии. Через эту объединенную структуру DART устанавливает новый стандарт для масштабируемого, высококачественного синтеза изображений.

English

Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.

DART: Денойзинг авторегрессивный трансформер для масштабируемой генерации текста в изображение

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

Аннотация

Support