ChatPaper.aiChatPaper

LooseControl: Erweiterung von ControlNet für generalisierte Tiefenkonditionierung

LooseControl: Lifting ControlNet for Generalized Depth Conditioning

December 5, 2023
Autoren: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI

Zusammenfassung

Wir stellen LooseControl vor, um eine generalisierte Tiefenkonditionierung für die diffusionsbasierte Bildgenerierung zu ermöglichen. ControlNet, der State-of-the-Art für tiefenkonditionierte Bildgenerierung, erzielt bemerkenswerte Ergebnisse, ist jedoch auf den Zugriff auf detaillierte Tiefenkarten zur Führung angewiesen. Die Erstellung solcher präziser Tiefenkarten ist in vielen Szenarien eine Herausforderung. Dieses Papier führt eine generalisierte Version der Tiefenkonditionierung ein, die viele neue Workflows zur Inhaltserstellung ermöglicht. Konkret ermöglichen wir (C1) die Steuerung von Szenengrenzen, um Szenen nur mit Randbedingungen grob zu spezifizieren, und (C2) die 3D-Box-Steuerung, um die Layoutpositionen der Zielobjekte anstelle der exakten Form und des Aussehens der Objekte festzulegen. Mit LooseControl können Benutzer, zusammen mit Textanweisungen, komplexe Umgebungen (z.B. Räume, Straßenansichten usw.) erstellen, indem sie nur Szenengrenzen und Positionen der Hauptobjekte angeben. Darüber hinaus bieten wir zwei Bearbeitungsmechanismen zur Verfeinerung der Ergebnisse: (E1) Die 3D-Box-Bearbeitung ermöglicht es dem Benutzer, Bilder zu verfeinern, indem er Boxen ändert, hinzufügt oder entfernt, während der Stil des Bildes eingefroren wird. Dies führt zu minimalen Änderungen, abgesehen von den durch die bearbeiteten Boxen verursachten Änderungen. (E2) Die Attributbearbeitung schlägt mögliche Bearbeitungsrichtungen vor, um einen bestimmten Aspekt der Szene zu ändern, wie z.B. die Gesamtobjektdichte oder ein bestimmtes Objekt. Umfangreiche Tests und Vergleiche mit Baselines demonstrieren die Allgemeingültigkeit unserer Methode. Wir glauben, dass LooseControl ein wichtiges Designtool für die einfache Erstellung komplexer Umgebungen werden und auf andere Formen von Führungskanälen erweitert werden kann. Code und weitere Informationen sind verfügbar unter https://shariqfarooq123.github.io/loose-control/.
English
We present LooseControl to allow generalized depth conditioning for diffusion-based image generation. ControlNet, the SOTA for depth-conditioned image generation, produces remarkable results but relies on having access to detailed depth maps for guidance. Creating such exact depth maps, in many scenarios, is challenging. This paper introduces a generalized version of depth conditioning that enables many new content-creation workflows. Specifically, we allow (C1) scene boundary control for loosely specifying scenes with only boundary conditions, and (C2) 3D box control for specifying layout locations of the target objects rather than the exact shape and appearance of the objects. Using LooseControl, along with text guidance, users can create complex environments (e.g., rooms, street views, etc.) by specifying only scene boundaries and locations of primary objects. Further, we provide two editing mechanisms to refine the results: (E1) 3D box editing enables the user to refine images by changing, adding, or removing boxes while freezing the style of the image. This yields minimal changes apart from changes induced by the edited boxes. (E2) Attribute editing proposes possible editing directions to change one particular aspect of the scene, such as the overall object density or a particular object. Extensive tests and comparisons with baselines demonstrate the generality of our method. We believe that LooseControl can become an important design tool for easily creating complex environments and be extended to other forms of guidance channels. Code and more information are available at https://shariqfarooq123.github.io/loose-control/ .
PDF152December 15, 2024