ChatPaper.aiChatPaper

나쁜 버전의 자기 자신으로 확산 모델을 안내하기

Guiding a Diffusion Model with a Bad Version of Itself

June 4, 2024
저자: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
cs.AI

초록

이미지 생성 확산 모델에서 주요 관심사는 이미지 품질, 결과물의 다양성 정도, 그리고 주어진 조건(예: 클래스 레이블 또는 텍스트 프롬프트)과의 일치도입니다. 널리 사용되는 classifier-free guidance 접근법은 조건 없는 모델을 사용하여 조건부 모델을 안내함으로써, 더 나은 프롬프트 일치도와 더 높은 품질의 이미지를 얻는 대신 다양성이 감소하는 결과를 가져옵니다. 이러한 효과들은 본질적으로 얽혀 있어 제어하기 어려운 것으로 보입니다. 우리는 놀랍게도, 조건 없는 모델 대신 더 작고 덜 훈련된 버전의 모델 자체를 사용하여 생성을 안내함으로써 다양성을 희생하지 않고도 이미지 품질에 대한 분리된 제어가 가능하다는 관찰을 했습니다. 이는 공개적으로 사용 가능한 네트워크를 사용하여 ImageNet 생성에서 64x64에서 1.01, 512x512에서 1.25라는 기록적인 FID(Frechet Inception Distance)를 달성하는 등 상당한 개선을 이끌어냈습니다. 더 나아가, 이 방법은 조건 없는 확산 모델에도 적용 가능하며, 그들의 품질을 크게 향상시킵니다.
English
The primary axes of interest in image-generating diffusion models are image quality, the amount of variation in the results, and how well the results align with a given condition, e.g., a class label or a text prompt. The popular classifier-free guidance approach uses an unconditional model to guide a conditional model, leading to simultaneously better prompt alignment and higher-quality images at the cost of reduced variation. These effects seem inherently entangled, and thus hard to control. We make the surprising observation that it is possible to obtain disentangled control over image quality without compromising the amount of variation by guiding generation using a smaller, less-trained version of the model itself rather than an unconditional model. This leads to significant improvements in ImageNet generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using publicly available networks. Furthermore, the method is also applicable to unconditional diffusion models, drastically improving their quality.

Summary

AI-Generated Summary

PDF171December 12, 2024