LooseControl: Het optillen van ControlNet voor gegeneraliseerde dieptebeperking
LooseControl: Lifting ControlNet for Generalized Depth Conditioning
December 5, 2023
Auteurs: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI
Samenvatting
We presenteren LooseControl om gegeneraliseerde diepteconditionering mogelijk te maken voor diffusiegebaseerde beeldgeneratie. ControlNet, de state-of-the-art voor dieptegeconditioneerde beeldgeneratie, levert opmerkelijke resultaten op, maar is afhankelijk van gedetailleerde dieptekaarten als begeleiding. Het creëren van dergelijke exacte dieptekaarten is in veel scenario's echter uitdagend. Dit artikel introduceert een gegeneraliseerde versie van diepteconditionering die veel nieuwe workflows voor inhoudscreatie mogelijk maakt. Specifiek staan we toe (C1) scènegrenscontrole om scènes losjes te specificeren met alleen randvoorwaarden, en (C2) 3D-boxcontrole om de lay-outlocaties van de doelobjecten te specificeren in plaats van de exacte vorm en het uiterlijk van de objecten. Met LooseControl, in combinatie met tekstbegeleiding, kunnen gebruikers complexe omgevingen (bijv. kamers, straatbeelden, etc.) creëren door alleen scènegrenzen en locaties van primaire objecten te specificeren. Verder bieden we twee bewerkingsmechanismen om de resultaten te verfijnen: (E1) 3D-boxbewerking stelt de gebruiker in staat om afbeeldingen te verfijnen door boxen te wijzigen, toe te voegen of te verwijderen terwijl de stijl van de afbeelding behouden blijft. Dit resulteert in minimale wijzigingen, afgezien van de wijzigingen veroorzaakt door de bewerkte boxen. (E2) Attribuutbewerking stelt mogelijke bewerkingsrichtingen voor om één specifiek aspect van de scène te wijzigen, zoals de algehele objectdichtheid of een bepaald object. Uitgebreide tests en vergelijkingen met basislijnen demonstreren de algemeenheid van onze methode. Wij geloven dat LooseControl een belangrijk ontwerptool kan worden voor het eenvoudig creëren van complexe omgevingen en uitgebreid kan worden naar andere vormen van begeleidingskanalen. Code en meer informatie zijn beschikbaar op https://shariqfarooq123.github.io/loose-control/.
English
We present LooseControl to allow generalized depth conditioning for
diffusion-based image generation. ControlNet, the SOTA for depth-conditioned
image generation, produces remarkable results but relies on having access to
detailed depth maps for guidance. Creating such exact depth maps, in many
scenarios, is challenging. This paper introduces a generalized version of depth
conditioning that enables many new content-creation workflows. Specifically, we
allow (C1) scene boundary control for loosely specifying scenes with only
boundary conditions, and (C2) 3D box control for specifying layout locations of
the target objects rather than the exact shape and appearance of the objects.
Using LooseControl, along with text guidance, users can create complex
environments (e.g., rooms, street views, etc.) by specifying only scene
boundaries and locations of primary objects. Further, we provide two editing
mechanisms to refine the results: (E1) 3D box editing enables the user to
refine images by changing, adding, or removing boxes while freezing the style
of the image. This yields minimal changes apart from changes induced by the
edited boxes. (E2) Attribute editing proposes possible editing directions to
change one particular aspect of the scene, such as the overall object density
or a particular object. Extensive tests and comparisons with baselines
demonstrate the generality of our method. We believe that LooseControl can
become an important design tool for easily creating complex environments and be
extended to other forms of guidance channels. Code and more information are
available at https://shariqfarooq123.github.io/loose-control/ .