ChatPaper.aiChatPaper

Auto-guidance par diffusion pour la génération contrôlée d'images

Diffusion Self-Guidance for Controllable Image Generation

June 1, 2023
Auteurs: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
cs.AI

Résumé

Les modèles génératifs à grande échelle sont capables de produire des images de haute qualité à partir de descriptions textuelles détaillées. Cependant, de nombreux aspects d'une image sont difficiles, voire impossibles, à transmettre par le texte. Nous introduisons l'auto-guidage, une méthode qui offre un meilleur contrôle sur les images générées en guidant les représentations internes des modèles de diffusion. Nous démontrons que des propriétés telles que la forme, la position et l'apparence des objets peuvent être extraites de ces représentations et utilisées pour orienter l'échantillonnage. L'auto-guidage fonctionne de manière similaire au guidage par classifieur, mais utilise des signaux présents dans le modèle pré-entraîné lui-même, sans nécessiter de modèles supplémentaires ni d'entraînement. Nous montrons comment un ensemble simple de propriétés peut être composé pour réaliser des manipulations d'images complexes, telles que la modification de la position ou de la taille des objets, la fusion de l'apparence des objets d'une image avec la disposition d'une autre, la composition d'objets provenant de plusieurs images en une seule, et bien plus encore. Nous montrons également que l'auto-guidage peut être utilisé pour éditer des images réelles. Pour les résultats et une démonstration interactive, consultez notre page de projet à l'adresse https://dave.ml/selfguidance/.
English
Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/
PDF20December 15, 2024