제한된 구간에서 가이던스를 적용하면 확산 모델의 샘플 및 분포 품질이 향상된다
Applying Guidance in a Limited Interval Improves Sample and Distribution Quality in Diffusion Models
April 11, 2024
저자: Tuomas Kynkäänniemi, Miika Aittala, Tero Karras, Samuli Laine, Timo Aila, Jaakko Lehtinen
cs.AI
초록
가이던스는 이미지 생성 확산 모델의 최상의 성능을 이끌어내는 중요한 기술입니다. 전통적으로는 이미지 샘플링 체인 전체에 걸쳐 일정한 가이던스 가중치가 적용되어 왔습니다. 우리는 가이던스가 체인의 초기 단계(높은 노이즈 수준)에서는 명백히 해롭고, 후반 단계(낮은 노이즈 수준)에서는 대체로 불필요하며, 중간 단계에서만 유익하다는 것을 보여줍니다. 따라서 우리는 이를 특정 노이즈 수준 범위로 제한함으로써 추론 속도와 결과 품질을 모두 개선했습니다. 이 제한된 가이던스 구간은 ImageNet-512에서 기록적인 FID를 1.81에서 1.40으로 크게 향상시켰습니다. 우리는 이 방법이 다양한 샘플러 매개변수, 네트워크 아키텍처, 데이터셋, 그리고 Stable Diffusion XL과 같은 대규모 설정에서도 양적 및 질적으로 유익함을 보여줍니다. 따라서 우리는 가이던스를 사용하는 모든 확산 모델에서 가이던스 구간을 하이퍼파라미터로 노출할 것을 제안합니다.
English
Guidance is a crucial technique for extracting the best performance out of
image-generating diffusion models. Traditionally, a constant guidance weight
has been applied throughout the sampling chain of an image. We show that
guidance is clearly harmful toward the beginning of the chain (high noise
levels), largely unnecessary toward the end (low noise levels), and only
beneficial in the middle. We thus restrict it to a specific range of noise
levels, improving both the inference speed and result quality. This limited
guidance interval improves the record FID in ImageNet-512 significantly, from
1.81 to 1.40. We show that it is quantitatively and qualitatively beneficial
across different sampler parameters, network architectures, and datasets,
including the large-scale setting of Stable Diffusion XL. We thus suggest
exposing the guidance interval as a hyperparameter in all diffusion models that
use guidance.Summary
AI-Generated Summary