Die Steuerung eines Diffusionsmodells mit einer fehlerhaften Version desselben.
Guiding a Diffusion Model with a Bad Version of Itself
June 4, 2024
Autoren: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
cs.AI
Zusammenfassung
Die Hauptachsen des Interesses bei bildgenerierenden Diffusionsmodellen sind die Bildqualität, die Menge der Variationen in den Ergebnissen und wie gut die Ergebnisse mit einer gegebenen Bedingung übereinstimmen, z. B. einem Klassenlabel oder einem Textprompt. Der beliebte leitlinienfreie Ansatz zur Führung verwendet ein bedingungsloses Modell, um ein bedingtes Modell zu führen, was zu gleichzeitig besserer Prompt-Ausrichtung und hochwertigeren Bildern auf Kosten reduzierter Variation führt. Diese Effekte scheinen inhärent verflochten zu sein und daher schwer zu kontrollieren. Wir machen die überraschende Beobachtung, dass es möglich ist, eine entwirrte Kontrolle über die Bildqualität zu erlangen, ohne die Menge der Variation zu beeinträchtigen, indem die Generierung durch eine kleinere, weniger trainierte Version des Modells selbst anstelle eines bedingungslosen Modells geführt wird. Dies führt zu signifikanten Verbesserungen bei der ImageNet-Generierung und setzt Rekord-FIDs von 1,01 für 64x64 und 1,25 für 512x512 unter Verwendung öffentlich verfügbarer Netzwerke. Darüber hinaus ist die Methode auch auf bedingungslose Diffusionsmodelle anwendbar und verbessert drastisch deren Qualität.
English
The primary axes of interest in image-generating diffusion models are image
quality, the amount of variation in the results, and how well the results align
with a given condition, e.g., a class label or a text prompt. The popular
classifier-free guidance approach uses an unconditional model to guide a
conditional model, leading to simultaneously better prompt alignment and
higher-quality images at the cost of reduced variation. These effects seem
inherently entangled, and thus hard to control. We make the surprising
observation that it is possible to obtain disentangled control over image
quality without compromising the amount of variation by guiding generation
using a smaller, less-trained version of the model itself rather than an
unconditional model. This leads to significant improvements in ImageNet
generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using
publicly available networks. Furthermore, the method is also applicable to
unconditional diffusion models, drastically improving their quality.Summary
AI-Generated Summary