ChatPaper.aiChatPaper

Kaleido-Diffusion: Verbesserung von bedingten Diffusionsmodellen durch autoregressive latente Modellierung

Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

May 31, 2024
Autoren: Jiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind
cs.AI

Zusammenfassung

Diffusionsmodelle haben sich als leistungsstarkes Werkzeug zur Erzeugung hochwertiger Bilder aus textuellen Beschreibungen erwiesen. Trotz ihrer Erfolge zeigen diese Modelle oft eine begrenzte Vielfalt in den generierten Bildern, insbesondere bei der Abtastung mit einem hohen Gewicht für die leitlinienfreie Klassifizierung. Um dieses Problem anzugehen, präsentieren wir Kaleido, einen innovativen Ansatz, der die Vielfalt der Proben durch die Integration autoregressiver latenter Prioritäten erhöht. Kaleido integriert ein autoregressives Sprachmodell, das die ursprüngliche Bildunterschrift codiert und latente Variablen generiert, die als abstrakte und Zwischenrepräsentationen dienen, um den Bildgenerierungsprozess zu lenken und zu erleichtern. In diesem Papier untersuchen wir eine Vielzahl diskreter latenter Repräsentationen, einschließlich textueller Beschreibungen, Erkennungsbereichen, Objektblobs und visueller Tokens. Diese Repräsentationen diversifizieren und bereichern die Eingangsbedingungen für die Diffusionsmodelle und ermöglichen vielfältigere Ausgaben. Unsere experimentellen Ergebnisse zeigen, dass Kaleido die Vielfalt der generierten Bildproben aus einer gegebenen textuellen Beschreibung effektiv erweitert, während die Bildqualität hoch gehalten wird. Darüber hinaus zeigen wir, dass Kaleido eng an die Anleitung durch die generierten latenten Variablen gebunden ist und somit seine Fähigkeit demonstriert, den Bildgenerierungsprozess effektiv zu steuern und zu lenken.
English
Diffusion models have emerged as a powerful tool for generating high-quality images from textual descriptions. Despite their successes, these models often exhibit limited diversity in the sampled images, particularly when sampling with a high classifier-free guidance weight. To address this issue, we present Kaleido, a novel approach that enhances the diversity of samples by incorporating autoregressive latent priors. Kaleido integrates an autoregressive language model that encodes the original caption and generates latent variables, serving as abstract and intermediary representations for guiding and facilitating the image generation process. In this paper, we explore a variety of discrete latent representations, including textual descriptions, detection bounding boxes, object blobs, and visual tokens. These representations diversify and enrich the input conditions to the diffusion models, enabling more diverse outputs. Our experimental results demonstrate that Kaleido effectively broadens the diversity of the generated image samples from a given textual description while maintaining high image quality. Furthermore, we show that Kaleido adheres closely to the guidance provided by the generated latent variables, demonstrating its capability to effectively control and direct the image generation process.

Summary

AI-Generated Summary

PDF160December 12, 2024