Diffusie Zelfsturing voor Beheersbare Beeldgeneratie

Samenvatting

Grootschalige generatieve modellen zijn in staat om hoogwaardige afbeeldingen te produceren op basis van gedetailleerde tekstbeschrijvingen. Echter zijn veel aspecten van een afbeelding moeilijk of onmogelijk over te brengen via tekst. Wij introduceren zelfsturing, een methode die meer controle biedt over gegenereerde afbeeldingen door de interne representaties van diffusiemodellen te sturen. We demonstreren dat eigenschappen zoals de vorm, locatie en het uiterlijk van objecten kunnen worden geëxtraheerd uit deze representaties en gebruikt kunnen worden om de sampling te sturen. Zelfsturing werkt vergelijkbaar met classifier guidance, maar maakt gebruik van signalen die aanwezig zijn in het vooraf getrainde model zelf, waardoor geen aanvullende modellen of training nodig zijn. We laten zien hoe een eenvoudige set van eigenschappen kan worden samengesteld om uitdagende beeldmanipulaties uit te voeren, zoals het aanpassen van de positie of grootte van objecten, het combineren van het uiterlijk van objecten uit één afbeelding met de lay-out van een andere, het samenstellen van objecten uit meerdere afbeeldingen in één, en meer. We tonen ook aan dat zelfsturing kan worden gebruikt om echte afbeeldingen te bewerken. Voor resultaten en een interactieve demo, zie onze projectpagina op https://dave.ml/selfguidance/.

English

Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/

Diffusie Zelfsturing voor Beheersbare Beeldgeneratie

Diffusion Self-Guidance for Controllable Image Generation

Samenvatting

Support