ChatPaper.aiChatPaper

Difusión con Autoguiado para Generación Controlable de Imágenes

Diffusion Self-Guidance for Controllable Image Generation

June 1, 2023
Autores: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
cs.AI

Resumen

Los modelos generativos a gran escala son capaces de producir imágenes de alta calidad a partir de descripciones textuales detalladas. Sin embargo, muchos aspectos de una imagen son difíciles o imposibles de transmitir mediante texto. Introducimos la autoguía, un método que proporciona un mayor control sobre las imágenes generadas al guiar las representaciones internas de los modelos de difusión. Demostramos que propiedades como la forma, la ubicación y la apariencia de los objetos pueden extraerse de estas representaciones y utilizarse para dirigir el muestreo. La autoguía funciona de manera similar a la guía por clasificador, pero utiliza señales presentes en el propio modelo preentrenado, sin requerir modelos adicionales ni entrenamiento. Mostramos cómo un conjunto simple de propiedades puede combinarse para realizar manipulaciones desafiantes de imágenes, como modificar la posición o el tamaño de objetos, fusionar la apariencia de objetos en una imagen con la disposición de otra, componer objetos de varias imágenes en una sola, y más. También demostramos que la autoguía puede utilizarse para editar imágenes reales. Para ver los resultados y una demostración interactiva, visite nuestra página del proyecto en https://dave.ml/selfguidance/.
English
Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/
PDF20December 15, 2024