ChatPaper.aiChatPaper

Kaleido Diffusie: Verbetering van Conditionele Diffusiemodellen met Autoregressieve Latente Modellering

Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

May 31, 2024
Auteurs: Jiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind
cs.AI

Samenvatting

Diffusiemodellen zijn naar voren gekomen als een krachtig hulpmiddel voor het genereren van hoogwaardige afbeeldingen op basis van tekstuele beschrijvingen. Ondanks hun successen vertonen deze modellen vaak beperkte diversiteit in de gegenereerde afbeeldingen, vooral bij het bemonsteren met een hoge classifier-free guidance weight. Om dit probleem aan te pakken, presenteren we Kaleido, een nieuwe aanpak die de diversiteit van de samples vergroot door het incorporeren van autoregressieve latente priors. Kaleido integreert een autoregressief taalmodel dat de originele beschrijving codeert en latente variabelen genereert, die dienen als abstracte en intermediaire representaties voor het begeleiden en faciliteren van het beeldgeneratieproces. In dit artikel verkennen we een verscheidenheid aan discrete latente representaties, waaronder tekstuele beschrijvingen, detectiebounding boxes, objectblobs en visuele tokens. Deze representaties diversifiëren en verrijken de invoervoorwaarden voor de diffusiemodellen, waardoor meer diverse uitvoer mogelijk wordt. Onze experimentele resultaten tonen aan dat Kaleido effectief de diversiteit van de gegenereerde afbeeldingssamples uit een gegeven tekstuele beschrijving vergroot, terwijl de hoge beeldkwaliteit behouden blijft. Bovendien laten we zien dat Kaleido nauw aansluit bij de begeleiding die wordt geboden door de gegenereerde latente variabelen, wat zijn vermogen aantoont om het beeldgeneratieproces effectief te controleren en te sturen.
English
Diffusion models have emerged as a powerful tool for generating high-quality images from textual descriptions. Despite their successes, these models often exhibit limited diversity in the sampled images, particularly when sampling with a high classifier-free guidance weight. To address this issue, we present Kaleido, a novel approach that enhances the diversity of samples by incorporating autoregressive latent priors. Kaleido integrates an autoregressive language model that encodes the original caption and generates latent variables, serving as abstract and intermediary representations for guiding and facilitating the image generation process. In this paper, we explore a variety of discrete latent representations, including textual descriptions, detection bounding boxes, object blobs, and visual tokens. These representations diversify and enrich the input conditions to the diffusion models, enabling more diverse outputs. Our experimental results demonstrate that Kaleido effectively broadens the diversity of the generated image samples from a given textual description while maintaining high image quality. Furthermore, we show that Kaleido adheres closely to the guidance provided by the generated latent variables, demonstrating its capability to effectively control and direct the image generation process.
PDF160February 7, 2026