LooseControl: Erweiterung von ControlNet für generalisierte Tiefenkonditionierung
LooseControl: Lifting ControlNet for Generalized Depth Conditioning
December 5, 2023
Autoren: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI
Zusammenfassung
Wir stellen LooseControl vor, um eine generalisierte Tiefenkonditionierung für die diffusionsbasierte Bildgenerierung zu ermöglichen. ControlNet, der State-of-the-Art für tiefenkonditionierte Bildgenerierung, erzielt bemerkenswerte Ergebnisse, ist jedoch auf den Zugriff auf detaillierte Tiefenkarten zur Führung angewiesen. Die Erstellung solcher präziser Tiefenkarten ist in vielen Szenarien eine Herausforderung. Dieses Papier führt eine generalisierte Version der Tiefenkonditionierung ein, die viele neue Workflows zur Inhaltserstellung ermöglicht. Konkret ermöglichen wir (C1) die Steuerung von Szenengrenzen, um Szenen nur mit Randbedingungen grob zu spezifizieren, und (C2) die 3D-Box-Steuerung, um die Layoutpositionen der Zielobjekte anstelle der exakten Form und des Aussehens der Objekte festzulegen. Mit LooseControl können Benutzer, zusammen mit Textanweisungen, komplexe Umgebungen (z.B. Räume, Straßenansichten usw.) erstellen, indem sie nur Szenengrenzen und Positionen der Hauptobjekte angeben. Darüber hinaus bieten wir zwei Bearbeitungsmechanismen zur Verfeinerung der Ergebnisse: (E1) Die 3D-Box-Bearbeitung ermöglicht es dem Benutzer, Bilder zu verfeinern, indem er Boxen ändert, hinzufügt oder entfernt, während der Stil des Bildes eingefroren wird. Dies führt zu minimalen Änderungen, abgesehen von den durch die bearbeiteten Boxen verursachten Änderungen. (E2) Die Attributbearbeitung schlägt mögliche Bearbeitungsrichtungen vor, um einen bestimmten Aspekt der Szene zu ändern, wie z.B. die Gesamtobjektdichte oder ein bestimmtes Objekt. Umfangreiche Tests und Vergleiche mit Baselines demonstrieren die Allgemeingültigkeit unserer Methode. Wir glauben, dass LooseControl ein wichtiges Designtool für die einfache Erstellung komplexer Umgebungen werden und auf andere Formen von Führungskanälen erweitert werden kann. Code und weitere Informationen sind verfügbar unter https://shariqfarooq123.github.io/loose-control/.
English
We present LooseControl to allow generalized depth conditioning for
diffusion-based image generation. ControlNet, the SOTA for depth-conditioned
image generation, produces remarkable results but relies on having access to
detailed depth maps for guidance. Creating such exact depth maps, in many
scenarios, is challenging. This paper introduces a generalized version of depth
conditioning that enables many new content-creation workflows. Specifically, we
allow (C1) scene boundary control for loosely specifying scenes with only
boundary conditions, and (C2) 3D box control for specifying layout locations of
the target objects rather than the exact shape and appearance of the objects.
Using LooseControl, along with text guidance, users can create complex
environments (e.g., rooms, street views, etc.) by specifying only scene
boundaries and locations of primary objects. Further, we provide two editing
mechanisms to refine the results: (E1) 3D box editing enables the user to
refine images by changing, adding, or removing boxes while freezing the style
of the image. This yields minimal changes apart from changes induced by the
edited boxes. (E2) Attribute editing proposes possible editing directions to
change one particular aspect of the scene, such as the overall object density
or a particular object. Extensive tests and comparisons with baselines
demonstrate the generality of our method. We believe that LooseControl can
become an important design tool for easily creating complex environments and be
extended to other forms of guidance channels. Code and more information are
available at https://shariqfarooq123.github.io/loose-control/ .