Kaleido Diffusion: 자기회귀적 잠재 모델링을 통한 조건부 확산 모델 개선
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling
May 31, 2024
저자: Jiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind
cs.AI
초록
디퓨전 모델은 텍스트 설명에서 고품질 이미지를 생성하는 강력한 도구로 부상했습니다. 이러한 성공에도 불구하고, 특히 높은 분류자 없는 가이던스 가중치로 샘플링할 때, 이러한 모델은 종종 샘플링된 이미지의 다양성이 제한되는 경향을 보입니다. 이 문제를 해결하기 위해, 우리는 자동회귀적 잠재 사전 정보를 통합하여 샘플의 다양성을 향상시키는 새로운 접근 방식인 Kaleido를 제시합니다. Kaleido는 원본 캡션을 인코딩하고 잠재 변수를 생성하는 자동회귀 언어 모델을 통합하여, 이미지 생성 과정을 안내하고 촉진하기 위한 추상적이고 중간적인 표현으로 활용합니다. 본 논문에서는 텍스트 설명, 감지 경계 상자, 객체 블롭, 시각적 토큰을 포함한 다양한 이산 잠재 표현을 탐구합니다. 이러한 표현들은 디퓨전 모델에 대한 입력 조건을 다양화하고 풍부하게 하여 더 다양한 출력을 가능하게 합니다. 우리의 실험 결과는 Kaleido가 주어진 텍스트 설명에서 생성된 이미지 샘플의 다양성을 효과적으로 확장하면서도 높은 이미지 품질을 유지한다는 것을 보여줍니다. 또한, Kaleido가 생성된 잠재 변수에 의해 제공된 가이던스를 밀접하게 준수함으로써, 이미지 생성 과정을 효과적으로 제어하고 지시할 수 있는 능력을 입증합니다.
English
Diffusion models have emerged as a powerful tool for generating high-quality
images from textual descriptions. Despite their successes, these models often
exhibit limited diversity in the sampled images, particularly when sampling
with a high classifier-free guidance weight. To address this issue, we present
Kaleido, a novel approach that enhances the diversity of samples by
incorporating autoregressive latent priors. Kaleido integrates an
autoregressive language model that encodes the original caption and generates
latent variables, serving as abstract and intermediary representations for
guiding and facilitating the image generation process. In this paper, we
explore a variety of discrete latent representations, including textual
descriptions, detection bounding boxes, object blobs, and visual tokens. These
representations diversify and enrich the input conditions to the diffusion
models, enabling more diverse outputs. Our experimental results demonstrate
that Kaleido effectively broadens the diversity of the generated image samples
from a given textual description while maintaining high image quality.
Furthermore, we show that Kaleido adheres closely to the guidance provided by
the generated latent variables, demonstrating its capability to effectively
control and direct the image generation process.Summary
AI-Generated Summary