Difusión con Autoguiado para Generación Controlable de Imágenes
Diffusion Self-Guidance for Controllable Image Generation
June 1, 2023
Autores: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
cs.AI
Resumen
Los modelos generativos a gran escala son capaces de producir imágenes de alta calidad a partir de descripciones textuales detalladas. Sin embargo, muchos aspectos de una imagen son difíciles o imposibles de transmitir mediante texto. Introducimos la autoguía, un método que proporciona un mayor control sobre las imágenes generadas al guiar las representaciones internas de los modelos de difusión. Demostramos que propiedades como la forma, la ubicación y la apariencia de los objetos pueden extraerse de estas representaciones y utilizarse para dirigir el muestreo. La autoguía funciona de manera similar a la guía por clasificador, pero utiliza señales presentes en el propio modelo preentrenado, sin requerir modelos adicionales ni entrenamiento. Mostramos cómo un conjunto simple de propiedades puede combinarse para realizar manipulaciones desafiantes de imágenes, como modificar la posición o el tamaño de objetos, fusionar la apariencia de objetos en una imagen con la disposición de otra, componer objetos de varias imágenes en una sola, y más. También demostramos que la autoguía puede utilizarse para editar imágenes reales. Para ver los resultados y una demostración interactiva, visite nuestra página del proyecto en https://dave.ml/selfguidance/.
English
Large-scale generative models are capable of producing high-quality images
from detailed text descriptions. However, many aspects of an image are
difficult or impossible to convey through text. We introduce self-guidance, a
method that provides greater control over generated images by guiding the
internal representations of diffusion models. We demonstrate that properties
such as the shape, location, and appearance of objects can be extracted from
these representations and used to steer sampling. Self-guidance works similarly
to classifier guidance, but uses signals present in the pretrained model
itself, requiring no additional models or training. We show how a simple set of
properties can be composed to perform challenging image manipulations, such as
modifying the position or size of objects, merging the appearance of objects in
one image with the layout of another, composing objects from many images into
one, and more. We also show that self-guidance can be used to edit real images.
For results and an interactive demo, see our project page at
https://dave.ml/selfguidance/