Diffusion Self-Guidance für kontrollierbare Bildgenerierung
Diffusion Self-Guidance for Controllable Image Generation
June 1, 2023
Autoren: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
cs.AI
Zusammenfassung
Großskalige generative Modelle sind in der Lage, hochwertige Bilder aus detaillierten Textbeschreibungen zu erzeugen. Viele Aspekte eines Bildes sind jedoch schwierig oder unmöglich, durch Text zu vermitteln. Wir stellen Self-Guidance vor, eine Methode, die eine bessere Kontrolle über generierte Bilder ermöglicht, indem sie die internen Repräsentationen von Diffusionsmodellen steuert. Wir zeigen, dass Eigenschaften wie Form, Position und Erscheinungsbild von Objekten aus diesen Repräsentationen extrahiert und zur Steuerung des Sampling-Prozesses verwendet werden können. Self-Guidance funktioniert ähnlich wie Classifier-Guidance, nutzt jedoch Signale, die im vortrainierten Modell selbst vorhanden sind, und erfordert keine zusätzlichen Modelle oder Training. Wir zeigen, wie eine einfache Menge von Eigenschaften kombiniert werden kann, um anspruchsvolle Bildmanipulationen durchzuführen, wie z. B. die Änderung der Position oder Größe von Objekten, das Zusammenführen des Erscheinungsbilds von Objekten aus einem Bild mit dem Layout eines anderen, das Komponieren von Objekten aus vielen Bildern in eines und mehr. Wir zeigen auch, dass Self-Guidance zur Bearbeitung realer Bilder verwendet werden kann. Für Ergebnisse und eine interaktive Demo besuchen Sie unsere Projektseite unter https://dave.ml/selfguidance/.
English
Large-scale generative models are capable of producing high-quality images
from detailed text descriptions. However, many aspects of an image are
difficult or impossible to convey through text. We introduce self-guidance, a
method that provides greater control over generated images by guiding the
internal representations of diffusion models. We demonstrate that properties
such as the shape, location, and appearance of objects can be extracted from
these representations and used to steer sampling. Self-guidance works similarly
to classifier guidance, but uses signals present in the pretrained model
itself, requiring no additional models or training. We show how a simple set of
properties can be composed to perform challenging image manipulations, such as
modifying the position or size of objects, merging the appearance of objects in
one image with the layout of another, composing objects from many images into
one, and more. We also show that self-guidance can be used to edit real images.
For results and an interactive demo, see our project page at
https://dave.ml/selfguidance/