Auto-guidance par diffusion pour la génération contrôlée d'images
Diffusion Self-Guidance for Controllable Image Generation
June 1, 2023
Auteurs: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
cs.AI
Résumé
Les modèles génératifs à grande échelle sont capables de produire des images de haute qualité à partir de descriptions textuelles détaillées. Cependant, de nombreux aspects d'une image sont difficiles, voire impossibles, à transmettre par le texte. Nous introduisons l'auto-guidage, une méthode qui offre un meilleur contrôle sur les images générées en guidant les représentations internes des modèles de diffusion. Nous démontrons que des propriétés telles que la forme, la position et l'apparence des objets peuvent être extraites de ces représentations et utilisées pour orienter l'échantillonnage. L'auto-guidage fonctionne de manière similaire au guidage par classifieur, mais utilise des signaux présents dans le modèle pré-entraîné lui-même, sans nécessiter de modèles supplémentaires ni d'entraînement. Nous montrons comment un ensemble simple de propriétés peut être composé pour réaliser des manipulations d'images complexes, telles que la modification de la position ou de la taille des objets, la fusion de l'apparence des objets d'une image avec la disposition d'une autre, la composition d'objets provenant de plusieurs images en une seule, et bien plus encore. Nous montrons également que l'auto-guidage peut être utilisé pour éditer des images réelles. Pour les résultats et une démonstration interactive, consultez notre page de projet à l'adresse https://dave.ml/selfguidance/.
English
Large-scale generative models are capable of producing high-quality images
from detailed text descriptions. However, many aspects of an image are
difficult or impossible to convey through text. We introduce self-guidance, a
method that provides greater control over generated images by guiding the
internal representations of diffusion models. We demonstrate that properties
such as the shape, location, and appearance of objects can be extracted from
these representations and used to steer sampling. Self-guidance works similarly
to classifier guidance, but uses signals present in the pretrained model
itself, requiring no additional models or training. We show how a simple set of
properties can be composed to perform challenging image manipulations, such as
modifying the position or size of objects, merging the appearance of objects in
one image with the layout of another, composing objects from many images into
one, and more. We also show that self-guidance can be used to edit real images.
For results and an interactive demo, see our project page at
https://dave.ml/selfguidance/