ChatPaper.aiChatPaper

Kaleido Diffusion : Amélioration des modèles de diffusion conditionnelle par modélisation latente autorégressive

Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

May 31, 2024
Auteurs: Jiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind
cs.AI

Résumé

Les modèles de diffusion se sont imposés comme un outil puissant pour générer des images de haute qualité à partir de descriptions textuelles. Malgré leurs succès, ces modèles présentent souvent une diversité limitée dans les images échantillonnées, en particulier lors de l'utilisation d'un poids de guidage sans classificateur élevé. Pour résoudre ce problème, nous présentons Kaleido, une approche novatrice qui améliore la diversité des échantillons en intégrant des a priori latents autorégressifs. Kaleido intègre un modèle de langage autorégressif qui encode la description originale et génère des variables latentes, servant de représentations abstraites et intermédiaires pour guider et faciliter le processus de génération d'images. Dans cet article, nous explorons une variété de représentations latentes discrètes, incluant des descriptions textuelles, des boîtes englobantes de détection, des blobs d'objets et des tokens visuels. Ces représentations diversifient et enrichissent les conditions d'entrée des modèles de diffusion, permettant des sorties plus variées. Nos résultats expérimentaux démontrent que Kaleido élargit efficacement la diversité des échantillons d'images générés à partir d'une description textuelle donnée tout en maintenant une qualité d'image élevée. De plus, nous montrons que Kaleido adhère étroitement au guidage fourni par les variables latentes générées, démontrant sa capacité à contrôler et diriger efficacement le processus de génération d'images.
English
Diffusion models have emerged as a powerful tool for generating high-quality images from textual descriptions. Despite their successes, these models often exhibit limited diversity in the sampled images, particularly when sampling with a high classifier-free guidance weight. To address this issue, we present Kaleido, a novel approach that enhances the diversity of samples by incorporating autoregressive latent priors. Kaleido integrates an autoregressive language model that encodes the original caption and generates latent variables, serving as abstract and intermediary representations for guiding and facilitating the image generation process. In this paper, we explore a variety of discrete latent representations, including textual descriptions, detection bounding boxes, object blobs, and visual tokens. These representations diversify and enrich the input conditions to the diffusion models, enabling more diverse outputs. Our experimental results demonstrate that Kaleido effectively broadens the diversity of the generated image samples from a given textual description while maintaining high image quality. Furthermore, we show that Kaleido adheres closely to the guidance provided by the generated latent variables, demonstrating its capability to effectively control and direct the image generation process.

Summary

AI-Generated Summary

PDF160December 12, 2024