LooseControl : Extension de ControlNet pour le conditionnement généralisé par la profondeur
LooseControl: Lifting ControlNet for Generalized Depth Conditioning
December 5, 2023
Auteurs: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI
Résumé
Nous présentons LooseControl pour permettre un conditionnement généralisé de la profondeur dans la génération d'images basée sur la diffusion. ControlNet, l'état de l'art pour la génération d'images conditionnée par la profondeur, produit des résultats remarquables mais repose sur l'accès à des cartes de profondeur détaillées pour le guidage. La création de telles cartes de profondeur précises est, dans de nombreux scénarios, un défi. Cet article introduit une version généralisée du conditionnement de la profondeur qui permet de nombreux nouveaux workflows de création de contenu. Plus précisément, nous permettons (C1) un contrôle des limites de scène pour spécifier de manière approximative les scènes avec seulement des conditions aux limites, et (C2) un contrôle par boîtes 3D pour spécifier les emplacements de mise en page des objets cibles plutôt que leur forme et apparence exactes. En utilisant LooseControl, ainsi qu'un guidage textuel, les utilisateurs peuvent créer des environnements complexes (par exemple, des pièces, des vues de rue, etc.) en spécifiant uniquement les limites de la scène et les emplacements des objets principaux. De plus, nous proposons deux mécanismes d'édition pour affiner les résultats : (E1) L'édition de boîtes 3D permet à l'utilisateur de retoucher les images en modifiant, ajoutant ou supprimant des boîtes tout en gelant le style de l'image. Cela entraîne des changements minimaux, à part ceux induits par les boîtes éditées. (E2) L'édition d'attributs propose des directions d'édition possibles pour modifier un aspect particulier de la scène, comme la densité globale des objets ou un objet spécifique. Des tests approfondis et des comparaisons avec des méthodes de référence démontrent la généralité de notre méthode. Nous croyons que LooseControl peut devenir un outil de conception important pour créer facilement des environnements complexes et être étendu à d'autres formes de canaux de guidage. Le code et plus d'informations sont disponibles à l'adresse https://shariqfarooq123.github.io/loose-control/.
English
We present LooseControl to allow generalized depth conditioning for
diffusion-based image generation. ControlNet, the SOTA for depth-conditioned
image generation, produces remarkable results but relies on having access to
detailed depth maps for guidance. Creating such exact depth maps, in many
scenarios, is challenging. This paper introduces a generalized version of depth
conditioning that enables many new content-creation workflows. Specifically, we
allow (C1) scene boundary control for loosely specifying scenes with only
boundary conditions, and (C2) 3D box control for specifying layout locations of
the target objects rather than the exact shape and appearance of the objects.
Using LooseControl, along with text guidance, users can create complex
environments (e.g., rooms, street views, etc.) by specifying only scene
boundaries and locations of primary objects. Further, we provide two editing
mechanisms to refine the results: (E1) 3D box editing enables the user to
refine images by changing, adding, or removing boxes while freezing the style
of the image. This yields minimal changes apart from changes induced by the
edited boxes. (E2) Attribute editing proposes possible editing directions to
change one particular aspect of the scene, such as the overall object density
or a particular object. Extensive tests and comparisons with baselines
demonstrate the generality of our method. We believe that LooseControl can
become an important design tool for easily creating complex environments and be
extended to other forms of guidance channels. Code and more information are
available at https://shariqfarooq123.github.io/loose-control/ .