ChatPaper.aiChatPaper

Diffusion Self-Guidance für kontrollierbare Bildgenerierung

Diffusion Self-Guidance for Controllable Image Generation

June 1, 2023
Autoren: Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
cs.AI

Zusammenfassung

Großskalige generative Modelle sind in der Lage, hochwertige Bilder aus detaillierten Textbeschreibungen zu erzeugen. Viele Aspekte eines Bildes sind jedoch schwierig oder unmöglich, durch Text zu vermitteln. Wir stellen Self-Guidance vor, eine Methode, die eine bessere Kontrolle über generierte Bilder ermöglicht, indem sie die internen Repräsentationen von Diffusionsmodellen steuert. Wir zeigen, dass Eigenschaften wie Form, Position und Erscheinungsbild von Objekten aus diesen Repräsentationen extrahiert und zur Steuerung des Sampling-Prozesses verwendet werden können. Self-Guidance funktioniert ähnlich wie Classifier-Guidance, nutzt jedoch Signale, die im vortrainierten Modell selbst vorhanden sind, und erfordert keine zusätzlichen Modelle oder Training. Wir zeigen, wie eine einfache Menge von Eigenschaften kombiniert werden kann, um anspruchsvolle Bildmanipulationen durchzuführen, wie z. B. die Änderung der Position oder Größe von Objekten, das Zusammenführen des Erscheinungsbilds von Objekten aus einem Bild mit dem Layout eines anderen, das Komponieren von Objekten aus vielen Bildern in eines und mehr. Wir zeigen auch, dass Self-Guidance zur Bearbeitung realer Bilder verwendet werden kann. Für Ergebnisse und eine interaktive Demo besuchen Sie unsere Projektseite unter https://dave.ml/selfguidance/.
English
Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/
PDF20December 15, 2024