Auto-Guidatazione Diffusiva per la Generazione Controllata di Immagini
Diffusion Self-Guidance for Controllable Image Generation
June 1, 2023
Autori: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
cs.AI
Abstract
I modelli generativi su larga scala sono in grado di produrre immagini di alta qualità a partire da descrizioni testuali dettagliate. Tuttavia, molti aspetti di un'immagine sono difficili o impossibili da trasmettere attraverso il testo. Introduciamo il self-guidance, un metodo che offre un maggiore controllo sulle immagini generate guidando le rappresentazioni interne dei modelli di diffusione. Dimostriamo che proprietà come la forma, la posizione e l'aspetto degli oggetti possono essere estratte da queste rappresentazioni e utilizzate per orientare il campionamento. Il self-guidance funziona in modo simile al classifier guidance, ma utilizza segnali presenti nel modello pre-addestrato stesso, senza richiedere modelli aggiuntivi o ulteriore training. Mostriamo come un semplice insieme di proprietà possa essere composto per eseguire manipolazioni complesse delle immagini, come modificare la posizione o le dimensioni degli oggetti, fondere l'aspetto degli oggetti di un'immagine con il layout di un'altra, comporre oggetti da molte immagini in una sola e altro ancora. Mostriamo inoltre che il self-guidance può essere utilizzato per modificare immagini reali. Per i risultati e una demo interattiva, consulta la nostra pagina del progetto all'indirizzo https://dave.ml/selfguidance/.
English
Large-scale generative models are capable of producing high-quality images
from detailed text descriptions. However, many aspects of an image are
difficult or impossible to convey through text. We introduce self-guidance, a
method that provides greater control over generated images by guiding the
internal representations of diffusion models. We demonstrate that properties
such as the shape, location, and appearance of objects can be extracted from
these representations and used to steer sampling. Self-guidance works similarly
to classifier guidance, but uses signals present in the pretrained model
itself, requiring no additional models or training. We show how a simple set of
properties can be composed to perform challenging image manipulations, such as
modifying the position or size of objects, merging the appearance of objects in
one image with the layout of another, composing objects from many images into
one, and more. We also show that self-guidance can be used to edit real images.
For results and an interactive demo, see our project page at
https://dave.ml/selfguidance/