Guidare un modello di diffusione con una sua versione scadente
Guiding a Diffusion Model with a Bad Version of Itself
June 4, 2024
Autori: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
cs.AI
Abstract
I principali aspetti di interesse nei modelli di diffusione per la generazione di immagini sono la qualità dell'immagine, la quantità di variazione nei risultati e quanto bene i risultati si allineano a una determinata condizione, ad esempio un'etichetta di classe o un prompt testuale. Il popolare approccio del classifier-free guidance utilizza un modello incondizionato per guidare un modello condizionato, portando a un migliore allineamento con il prompt e a immagini di qualità superiore, al costo di una ridotta variazione. Questi effetti sembrano intrinsecamente intrecciati e quindi difficili da controllare. Facciamo l'osservazione sorprendente che è possibile ottenere un controllo disaccoppiato sulla qualità dell'immagine senza compromettere la quantità di variazione, guidando la generazione utilizzando una versione più piccola e meno addestrata del modello stesso piuttosto che un modello incondizionato. Ciò porta a significativi miglioramenti nella generazione su ImageNet, stabilendo record FID di 1.01 per 64x64 e 1.25 per 512x512, utilizzando reti disponibili pubblicamente. Inoltre, il metodo è applicabile anche ai modelli di diffusione incondizionati, migliorando drasticamente la loro qualità.
English
The primary axes of interest in image-generating diffusion models are image
quality, the amount of variation in the results, and how well the results align
with a given condition, e.g., a class label or a text prompt. The popular
classifier-free guidance approach uses an unconditional model to guide a
conditional model, leading to simultaneously better prompt alignment and
higher-quality images at the cost of reduced variation. These effects seem
inherently entangled, and thus hard to control. We make the surprising
observation that it is possible to obtain disentangled control over image
quality without compromising the amount of variation by guiding generation
using a smaller, less-trained version of the model itself rather than an
unconditional model. This leads to significant improvements in ImageNet
generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using
publicly available networks. Furthermore, the method is also applicable to
unconditional diffusion models, drastically improving their quality.