Kaleido Diffusion: Miglioramento dei Modelli di Diffusione Condizionata con Modellazione Autoregressiva Latente
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling
May 31, 2024
Autori: Jiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind
cs.AI
Abstract
I modelli di diffusione sono emersi come uno strumento potente per generare immagini di alta qualità a partire da descrizioni testuali. Nonostante i loro successi, questi modelli spesso mostrano una diversità limitata nelle immagini campionate, specialmente quando si utilizza un peso elevato nella guida senza classificatore. Per affrontare questo problema, presentiamo Kaleido, un approccio innovativo che migliora la diversità dei campioni incorporando prior latenti autoregressivi. Kaleido integra un modello linguistico autoregressivo che codifica la descrizione originale e genera variabili latenti, servendo come rappresentazioni astratte e intermedie per guidare e facilitare il processo di generazione delle immagini. In questo articolo, esploriamo una varietà di rappresentazioni latenti discrete, tra cui descrizioni testuali, bounding box di rilevamento, blob di oggetti e token visivi. Queste rappresentazioni diversificano e arricchiscono le condizioni di input per i modelli di diffusione, consentendo output più vari. I nostri risultati sperimentali dimostrano che Kaleido amplia efficacemente la diversità dei campioni di immagini generati da una data descrizione testuale, mantenendo al contempo un'elevata qualità dell'immagine. Inoltre, mostriamo che Kaleido aderisce strettamente alla guida fornita dalle variabili latenti generate, dimostrando la sua capacità di controllare e dirigere efficacemente il processo di generazione delle immagini.
English
Diffusion models have emerged as a powerful tool for generating high-quality
images from textual descriptions. Despite their successes, these models often
exhibit limited diversity in the sampled images, particularly when sampling
with a high classifier-free guidance weight. To address this issue, we present
Kaleido, a novel approach that enhances the diversity of samples by
incorporating autoregressive latent priors. Kaleido integrates an
autoregressive language model that encodes the original caption and generates
latent variables, serving as abstract and intermediary representations for
guiding and facilitating the image generation process. In this paper, we
explore a variety of discrete latent representations, including textual
descriptions, detection bounding boxes, object blobs, and visual tokens. These
representations diversify and enrich the input conditions to the diffusion
models, enabling more diverse outputs. Our experimental results demonstrate
that Kaleido effectively broadens the diversity of the generated image samples
from a given textual description while maintaining high image quality.
Furthermore, we show that Kaleido adheres closely to the guidance provided by
the generated latent variables, demonstrating its capability to effectively
control and direct the image generation process.