ChatPaper.aiChatPaper

Kaleido Diffusion: Aprimorando Modelos de Difusão Condicional com Modelagem Latente Autoregressiva

Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

May 31, 2024
Autores: Jiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind
cs.AI

Resumo

Os modelos de difusão emergiram como uma ferramenta poderosa para gerar imagens de alta qualidade a partir de descrições textuais. Apesar de seus sucessos, esses modelos frequentemente exibem diversidade limitada nas imagens amostradas, especialmente quando a amostragem é realizada com um peso elevado de orientação livre de classificador. Para abordar essa questão, apresentamos o Kaleido, uma abordagem inovadora que aumenta a diversidade das amostras ao incorporar priores latentes autoregressivos. O Kaleido integra um modelo de linguagem autoregressivo que codifica a descrição original e gera variáveis latentes, servindo como representações abstratas e intermediárias para orientar e facilitar o processo de geração de imagens. Neste artigo, exploramos uma variedade de representações latentes discretas, incluindo descrições textuais, caixas delimitadoras de detecção, blobs de objetos e tokens visuais. Essas representações diversificam e enriquecem as condições de entrada para os modelos de difusão, permitindo saídas mais diversas. Nossos resultados experimentais demonstram que o Kaleido amplia efetivamente a diversidade das amostras de imagens geradas a partir de uma descrição textual, mantendo a alta qualidade das imagens. Além disso, mostramos que o Kaleido adere de perto à orientação fornecida pelas variáveis latentes geradas, demonstrando sua capacidade de controlar e direcionar efetivamente o processo de geração de imagens.
English
Diffusion models have emerged as a powerful tool for generating high-quality images from textual descriptions. Despite their successes, these models often exhibit limited diversity in the sampled images, particularly when sampling with a high classifier-free guidance weight. To address this issue, we present Kaleido, a novel approach that enhances the diversity of samples by incorporating autoregressive latent priors. Kaleido integrates an autoregressive language model that encodes the original caption and generates latent variables, serving as abstract and intermediary representations for guiding and facilitating the image generation process. In this paper, we explore a variety of discrete latent representations, including textual descriptions, detection bounding boxes, object blobs, and visual tokens. These representations diversify and enrich the input conditions to the diffusion models, enabling more diverse outputs. Our experimental results demonstrate that Kaleido effectively broadens the diversity of the generated image samples from a given textual description while maintaining high image quality. Furthermore, we show that Kaleido adheres closely to the guidance provided by the generated latent variables, demonstrating its capability to effectively control and direct the image generation process.
PDF160December 12, 2024