ChatPaper.aiChatPaper

Auto-Orientação por Difusão para Geração Controlável de Imagens

Diffusion Self-Guidance for Controllable Image Generation

June 1, 2023
Autores: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
cs.AI

Resumo

Modelos generativos em larga escala são capazes de produzir imagens de alta qualidade a partir de descrições textuais detalhadas. No entanto, muitos aspectos de uma imagem são difíceis ou impossíveis de transmitir por meio de texto. Introduzimos a autoguiada, um método que oferece maior controle sobre as imagens geradas ao guiar as representações internas de modelos de difusão. Demonstramos que propriedades como a forma, localização e aparência de objetos podem ser extraídas dessas representações e usadas para direcionar a amostragem. A autoguiada funciona de maneira semelhante à orientação por classificador, mas utiliza sinais presentes no próprio modelo pré-treinado, sem a necessidade de modelos adicionais ou treinamento. Mostramos como um conjunto simples de propriedades pode ser composto para realizar manipulações desafiadoras de imagens, como modificar a posição ou o tamanho de objetos, fundir a aparência de objetos de uma imagem com o layout de outra, compor objetos de várias imagens em uma única, e muito mais. Também mostramos que a autoguiada pode ser usada para editar imagens reais. Para resultados e uma demonstração interativa, consulte nossa página do projeto em https://dave.ml/selfguidance/.
English
Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/
PDF20February 8, 2026