ChatPaper.aiChatPaper

LooseControl: Het optillen van ControlNet voor gegeneraliseerde dieptebeperking

LooseControl: Lifting ControlNet for Generalized Depth Conditioning

December 5, 2023
Auteurs: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI

Samenvatting

We presenteren LooseControl om gegeneraliseerde diepteconditionering mogelijk te maken voor diffusiegebaseerde beeldgeneratie. ControlNet, de state-of-the-art voor dieptegeconditioneerde beeldgeneratie, levert opmerkelijke resultaten op, maar is afhankelijk van gedetailleerde dieptekaarten als begeleiding. Het creëren van dergelijke exacte dieptekaarten is in veel scenario's echter uitdagend. Dit artikel introduceert een gegeneraliseerde versie van diepteconditionering die veel nieuwe workflows voor inhoudscreatie mogelijk maakt. Specifiek staan we toe (C1) scènegrenscontrole om scènes losjes te specificeren met alleen randvoorwaarden, en (C2) 3D-boxcontrole om de lay-outlocaties van de doelobjecten te specificeren in plaats van de exacte vorm en het uiterlijk van de objecten. Met LooseControl, in combinatie met tekstbegeleiding, kunnen gebruikers complexe omgevingen (bijv. kamers, straatbeelden, etc.) creëren door alleen scènegrenzen en locaties van primaire objecten te specificeren. Verder bieden we twee bewerkingsmechanismen om de resultaten te verfijnen: (E1) 3D-boxbewerking stelt de gebruiker in staat om afbeeldingen te verfijnen door boxen te wijzigen, toe te voegen of te verwijderen terwijl de stijl van de afbeelding behouden blijft. Dit resulteert in minimale wijzigingen, afgezien van de wijzigingen veroorzaakt door de bewerkte boxen. (E2) Attribuutbewerking stelt mogelijke bewerkingsrichtingen voor om één specifiek aspect van de scène te wijzigen, zoals de algehele objectdichtheid of een bepaald object. Uitgebreide tests en vergelijkingen met basislijnen demonstreren de algemeenheid van onze methode. Wij geloven dat LooseControl een belangrijk ontwerptool kan worden voor het eenvoudig creëren van complexe omgevingen en uitgebreid kan worden naar andere vormen van begeleidingskanalen. Code en meer informatie zijn beschikbaar op https://shariqfarooq123.github.io/loose-control/.
English
We present LooseControl to allow generalized depth conditioning for diffusion-based image generation. ControlNet, the SOTA for depth-conditioned image generation, produces remarkable results but relies on having access to detailed depth maps for guidance. Creating such exact depth maps, in many scenarios, is challenging. This paper introduces a generalized version of depth conditioning that enables many new content-creation workflows. Specifically, we allow (C1) scene boundary control for loosely specifying scenes with only boundary conditions, and (C2) 3D box control for specifying layout locations of the target objects rather than the exact shape and appearance of the objects. Using LooseControl, along with text guidance, users can create complex environments (e.g., rooms, street views, etc.) by specifying only scene boundaries and locations of primary objects. Further, we provide two editing mechanisms to refine the results: (E1) 3D box editing enables the user to refine images by changing, adding, or removing boxes while freezing the style of the image. This yields minimal changes apart from changes induced by the edited boxes. (E2) Attribute editing proposes possible editing directions to change one particular aspect of the scene, such as the overall object density or a particular object. Extensive tests and comparisons with baselines demonstrate the generality of our method. We believe that LooseControl can become an important design tool for easily creating complex environments and be extended to other forms of guidance channels. Code and more information are available at https://shariqfarooq123.github.io/loose-control/ .
PDF162December 14, 2025