Диффузия Kaleido: Улучшение условных моделей диффузии с авторегрессионным скрытым моделированием
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling
May 31, 2024
Авторы: Jiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind
cs.AI
Аннотация
Модели диффузии стали мощным инструментом для генерации изображений высокого качества по текстовым описаниям. Несмотря на свои успехи, эти модели часто проявляют ограниченное разнообразие в сгенерированных изображениях, особенно при выборке с высоким весом направляющего классификатора. Для решения этой проблемы мы представляем Kaleido, новый подход, который увеличивает разнообразие образцов путем включения авторегрессивных скрытых априорных распределений. Kaleido интегрирует авторегрессивную языковую модель, которая кодирует исходное описание и генерирует скрытые переменные, служащие абстрактными и промежуточными представлениями для направления и облегчения процесса генерации изображения. В данной работе мы исследуем различные дискретные скрытые представления, включая текстовые описания, ограничивающие рамки детекции, объектные области и визуальные токены. Эти представления разнообразят и обогащают входные условия для моделей диффузии, обеспечивая более разнообразные результаты. Наши экспериментальные результаты демонстрируют, что Kaleido эффективно расширяет разнообразие сгенерированных образцов изображений по заданному текстовому описанию, сохраняя высокое качество изображения. Более того, мы показываем, что Kaleido тесно следует указаниям, предоставленным сгенерированными скрытыми переменными, демонстрируя его способность эффективно контролировать и направлять процесс генерации изображения.
English
Diffusion models have emerged as a powerful tool for generating high-quality
images from textual descriptions. Despite their successes, these models often
exhibit limited diversity in the sampled images, particularly when sampling
with a high classifier-free guidance weight. To address this issue, we present
Kaleido, a novel approach that enhances the diversity of samples by
incorporating autoregressive latent priors. Kaleido integrates an
autoregressive language model that encodes the original caption and generates
latent variables, serving as abstract and intermediary representations for
guiding and facilitating the image generation process. In this paper, we
explore a variety of discrete latent representations, including textual
descriptions, detection bounding boxes, object blobs, and visual tokens. These
representations diversify and enrich the input conditions to the diffusion
models, enabling more diverse outputs. Our experimental results demonstrate
that Kaleido effectively broadens the diversity of the generated image samples
from a given textual description while maintaining high image quality.
Furthermore, we show that Kaleido adheres closely to the guidance provided by
the generated latent variables, demonstrating its capability to effectively
control and direct the image generation process.Summary
AI-Generated Summary