ChatPaper.aiChatPaper

Guider un modèle de diffusion avec une version dégradée de lui-même

Guiding a Diffusion Model with a Bad Version of Itself

June 4, 2024
Auteurs: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
cs.AI

Résumé

Les principaux axes d'intérêt dans les modèles de diffusion générant des images sont la qualité de l'image, la variabilité des résultats et l'alignement de ces résultats avec une condition donnée, par exemple une étiquette de classe ou une consigne textuelle. L'approche populaire de guidage sans classifieur utilise un modèle non conditionnel pour guider un modèle conditionnel, conduisant à un meilleur alignement avec la consigne et à des images de plus haute qualité, au détriment d'une réduction de la variabilité. Ces effets semblent intrinsèquement liés, et donc difficiles à contrôler. Nous faisons l'observation surprenante qu'il est possible d'obtenir un contrôle découplé sur la qualité de l'image sans compromettre la variabilité en guidant la génération à l'aide d'une version plus petite et moins entraînée du modèle lui-même, plutôt qu'un modèle non conditionnel. Cela conduit à des améliorations significatives dans la génération sur ImageNet, établissant des records de FID de 1,01 pour 64x64 et 1,25 pour 512x512, en utilisant des réseaux disponibles publiquement. De plus, la méthode est également applicable aux modèles de diffusion non conditionnels, améliorant considérablement leur qualité.
English
The primary axes of interest in image-generating diffusion models are image quality, the amount of variation in the results, and how well the results align with a given condition, e.g., a class label or a text prompt. The popular classifier-free guidance approach uses an unconditional model to guide a conditional model, leading to simultaneously better prompt alignment and higher-quality images at the cost of reduced variation. These effects seem inherently entangled, and thus hard to control. We make the surprising observation that it is possible to obtain disentangled control over image quality without compromising the amount of variation by guiding generation using a smaller, less-trained version of the model itself rather than an unconditional model. This leads to significant improvements in ImageNet generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using publicly available networks. Furthermore, the method is also applicable to unconditional diffusion models, drastically improving their quality.

Summary

AI-Generated Summary

PDF171December 12, 2024