Een diffusiemodel begeleiden met een slechte versie van zichzelf
Guiding a Diffusion Model with a Bad Version of Itself
June 4, 2024
Auteurs: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
cs.AI
Samenvatting
De belangrijkste aandachtspunten bij beeldgenererende diffusiemodellen zijn beeldkwaliteit, de mate van variatie in de resultaten, en hoe goed de resultaten overeenkomen met een gegeven voorwaarde, zoals een klasse-label of een tekstprompt. De populaire classifier-free guidance-benadering gebruikt een onvoorwaardelijk model om een voorwaardelijk model te sturen, wat leidt tot zowel betere promptafstemming als hogere beeldkwaliteit, ten koste van verminderde variatie. Deze effecten lijken inherent verstrengeld en zijn daardoor moeilijk te controleren. We maken de verrassende observatie dat het mogelijk is om ontwarde controle over de beeldkwaliteit te verkrijgen zonder in te leveren op de mate van variatie, door de generatie te sturen met een kleinere, minder getrainde versie van het model zelf in plaats van een onvoorwaardelijk model. Dit leidt tot significante verbeteringen in ImageNet-generatie, waarbij record-FID-scores van 1.01 voor 64x64 en 1.25 voor 512x512 worden behaald, met behulp van publiek beschikbare netwerken. Bovendien is de methode ook toepasbaar op onvoorwaardelijke diffusiemodellen, waardoor hun kwaliteit aanzienlijk verbetert.
English
The primary axes of interest in image-generating diffusion models are image
quality, the amount of variation in the results, and how well the results align
with a given condition, e.g., a class label or a text prompt. The popular
classifier-free guidance approach uses an unconditional model to guide a
conditional model, leading to simultaneously better prompt alignment and
higher-quality images at the cost of reduced variation. These effects seem
inherently entangled, and thus hard to control. We make the surprising
observation that it is possible to obtain disentangled control over image
quality without compromising the amount of variation by guiding generation
using a smaller, less-trained version of the model itself rather than an
unconditional model. This leads to significant improvements in ImageNet
generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using
publicly available networks. Furthermore, the method is also applicable to
unconditional diffusion models, drastically improving their quality.