ChatPaper.aiChatPaper

Kaleido Diffusion: Miglioramento dei Modelli di Diffusione Condizionata con Modellazione Autoregressiva Latente

Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

May 31, 2024
Autori: Jiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind
cs.AI

Abstract

I modelli di diffusione sono emersi come uno strumento potente per generare immagini di alta qualità a partire da descrizioni testuali. Nonostante i loro successi, questi modelli spesso mostrano una diversità limitata nelle immagini campionate, specialmente quando si utilizza un peso elevato nella guida senza classificatore. Per affrontare questo problema, presentiamo Kaleido, un approccio innovativo che migliora la diversità dei campioni incorporando prior latenti autoregressivi. Kaleido integra un modello linguistico autoregressivo che codifica la descrizione originale e genera variabili latenti, servendo come rappresentazioni astratte e intermedie per guidare e facilitare il processo di generazione delle immagini. In questo articolo, esploriamo una varietà di rappresentazioni latenti discrete, tra cui descrizioni testuali, bounding box di rilevamento, blob di oggetti e token visivi. Queste rappresentazioni diversificano e arricchiscono le condizioni di input per i modelli di diffusione, consentendo output più vari. I nostri risultati sperimentali dimostrano che Kaleido amplia efficacemente la diversità dei campioni di immagini generati da una data descrizione testuale, mantenendo al contempo un'elevata qualità dell'immagine. Inoltre, mostriamo che Kaleido aderisce strettamente alla guida fornita dalle variabili latenti generate, dimostrando la sua capacità di controllare e dirigere efficacemente il processo di generazione delle immagini.
English
Diffusion models have emerged as a powerful tool for generating high-quality images from textual descriptions. Despite their successes, these models often exhibit limited diversity in the sampled images, particularly when sampling with a high classifier-free guidance weight. To address this issue, we present Kaleido, a novel approach that enhances the diversity of samples by incorporating autoregressive latent priors. Kaleido integrates an autoregressive language model that encodes the original caption and generates latent variables, serving as abstract and intermediary representations for guiding and facilitating the image generation process. In this paper, we explore a variety of discrete latent representations, including textual descriptions, detection bounding boxes, object blobs, and visual tokens. These representations diversify and enrich the input conditions to the diffusion models, enabling more diverse outputs. Our experimental results demonstrate that Kaleido effectively broadens the diversity of the generated image samples from a given textual description while maintaining high image quality. Furthermore, we show that Kaleido adheres closely to the guidance provided by the generated latent variables, demonstrating its capability to effectively control and direct the image generation process.
PDF160February 7, 2026