ChatPaper.aiChatPaper

Auto-Guidatazione Diffusiva per la Generazione Controllata di Immagini

Diffusion Self-Guidance for Controllable Image Generation

June 1, 2023
Autori: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
cs.AI

Abstract

I modelli generativi su larga scala sono in grado di produrre immagini di alta qualità a partire da descrizioni testuali dettagliate. Tuttavia, molti aspetti di un'immagine sono difficili o impossibili da trasmettere attraverso il testo. Introduciamo il self-guidance, un metodo che offre un maggiore controllo sulle immagini generate guidando le rappresentazioni interne dei modelli di diffusione. Dimostriamo che proprietà come la forma, la posizione e l'aspetto degli oggetti possono essere estratte da queste rappresentazioni e utilizzate per orientare il campionamento. Il self-guidance funziona in modo simile al classifier guidance, ma utilizza segnali presenti nel modello pre-addestrato stesso, senza richiedere modelli aggiuntivi o ulteriore training. Mostriamo come un semplice insieme di proprietà possa essere composto per eseguire manipolazioni complesse delle immagini, come modificare la posizione o le dimensioni degli oggetti, fondere l'aspetto degli oggetti di un'immagine con il layout di un'altra, comporre oggetti da molte immagini in una sola e altro ancora. Mostriamo inoltre che il self-guidance può essere utilizzato per modificare immagini reali. Per i risultati e una demo interattiva, consulta la nostra pagina del progetto all'indirizzo https://dave.ml/selfguidance/.
English
Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/
PDF20February 8, 2026