ChatPaper.aiChatPaper

L'applicazione della guida in un intervallo limitato migliora la qualità dei campioni e della distribuzione nei modelli di diffusione.

Applying Guidance in a Limited Interval Improves Sample and Distribution Quality in Diffusion Models

April 11, 2024
Autori: Tuomas Kynkäänniemi, Miika Aittala, Tero Karras, Samuli Laine, Timo Aila, Jaakko Lehtinen
cs.AI

Abstract

La guida è una tecnica cruciale per ottenere le migliori prestazioni dai modelli di diffusione per la generazione di immagini. Tradizionalmente, un peso costante di guida è stato applicato lungo l'intera catena di campionamento di un'immagine. Dimostriamo che la guida è chiaramente dannosa all'inizio della catena (alti livelli di rumore), largamente superflua alla fine (bassi livelli di rumore) e benefica solo nel mezzo. Pertanto, la limitiamo a un intervallo specifico di livelli di rumore, migliorando sia la velocità di inferenza che la qualità dei risultati. Questo intervallo di guida limitato migliora significativamente il record FID in ImageNet-512, passando da 1,81 a 1,40. Mostriamo che è vantaggioso sia quantitativamente che qualitativamente attraverso diversi parametri di campionamento, architetture di rete e dataset, incluso il contesto su larga scala di Stable Diffusion XL. Suggeriamo quindi di esporre l'intervallo di guida come un iperparametro in tutti i modelli di diffusione che utilizzano la guida.
English
Guidance is a crucial technique for extracting the best performance out of image-generating diffusion models. Traditionally, a constant guidance weight has been applied throughout the sampling chain of an image. We show that guidance is clearly harmful toward the beginning of the chain (high noise levels), largely unnecessary toward the end (low noise levels), and only beneficial in the middle. We thus restrict it to a specific range of noise levels, improving both the inference speed and result quality. This limited guidance interval improves the record FID in ImageNet-512 significantly, from 1.81 to 1.40. We show that it is quantitatively and qualitatively beneficial across different sampler parameters, network architectures, and datasets, including the large-scale setting of Stable Diffusion XL. We thus suggest exposing the guidance interval as a hyperparameter in all diffusion models that use guidance.
PDF141December 15, 2024