Kaleido Diffusion: Mejora de Modelos de Difusión Condicionales mediante Modelado Autoregresivo de Latentes
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling
May 31, 2024
Autores: Jiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind
cs.AI
Resumen
Los modelos de difusión han surgido como una herramienta poderosa para generar imágenes de alta calidad a partir de descripciones textuales. A pesar de sus éxitos, estos modelos suelen exhibir una diversidad limitada en las imágenes muestreadas, especialmente cuando se utiliza un peso alto de guía sin clasificador. Para abordar este problema, presentamos Kaleido, un enfoque novedoso que mejora la diversidad de las muestras mediante la incorporación de priores latentes autorregresivos. Kaleido integra un modelo de lenguaje autorregresivo que codifica la descripción original y genera variables latentes, sirviendo como representaciones abstractas e intermedias para guiar y facilitar el proceso de generación de imágenes. En este artículo, exploramos una variedad de representaciones latentes discretas, incluyendo descripciones textuales, cuadros delimitadores de detección, manchas de objetos y tokens visuales. Estas representaciones diversifican y enriquecen las condiciones de entrada a los modelos de difusión, permitiendo salidas más diversas. Nuestros resultados experimentales demuestran que Kaleido amplía efectivamente la diversidad de las muestras de imágenes generadas a partir de una descripción textual dada, manteniendo una alta calidad de imagen. Además, mostramos que Kaleido se adhiere estrechamente a la guía proporcionada por las variables latentes generadas, demostrando su capacidad para controlar y dirigir eficazmente el proceso de generación de imágenes.
English
Diffusion models have emerged as a powerful tool for generating high-quality
images from textual descriptions. Despite their successes, these models often
exhibit limited diversity in the sampled images, particularly when sampling
with a high classifier-free guidance weight. To address this issue, we present
Kaleido, a novel approach that enhances the diversity of samples by
incorporating autoregressive latent priors. Kaleido integrates an
autoregressive language model that encodes the original caption and generates
latent variables, serving as abstract and intermediary representations for
guiding and facilitating the image generation process. In this paper, we
explore a variety of discrete latent representations, including textual
descriptions, detection bounding boxes, object blobs, and visual tokens. These
representations diversify and enrich the input conditions to the diffusion
models, enabling more diverse outputs. Our experimental results demonstrate
that Kaleido effectively broadens the diversity of the generated image samples
from a given textual description while maintaining high image quality.
Furthermore, we show that Kaleido adheres closely to the guidance provided by
the generated latent variables, demonstrating its capability to effectively
control and direct the image generation process.Summary
AI-Generated Summary