LooseControl: Estensione di ControlNet per il condizionamento generalizzato della profondità
LooseControl: Lifting ControlNet for Generalized Depth Conditioning
December 5, 2023
Autori: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI
Abstract
Presentiamo LooseControl per consentire un condizionamento generalizzato della profondità nella generazione di immagini basata su modelli di diffusione. ControlNet, lo stato dell'arte per la generazione di immagini condizionate dalla profondità, produce risultati notevoli ma si basa sull'accesso a mappe di profondità dettagliate per la guida. Creare tali mappe di profondità precise, in molti scenari, è impegnativo. Questo articolo introduce una versione generalizzata del condizionamento della profondità che abilita numerosi nuovi flussi di lavoro per la creazione di contenuti. Nello specifico, permettiamo (C1) il controllo dei confini della scena per specificare in modo approssimativo le scene con sole condizioni al contorno, e (C2) il controllo tramite box 3D per specificare le posizioni di layout degli oggetti target piuttosto che la forma e l'aspetto esatti degli oggetti. Utilizzando LooseControl, insieme alla guida testuale, gli utenti possono creare ambienti complessi (ad esempio, stanze, vedute stradali, ecc.) specificando solo i confini della scena e le posizioni degli oggetti principali. Inoltre, forniamo due meccanismi di editing per affinare i risultati: (E1) l'editing tramite box 3D consente all'utente di perfezionare le immagini modificando, aggiungendo o rimuovendo box mantenendo invariato lo stile dell'immagine. Ciò produce cambiamenti minimi a parte quelli indotti dai box modificati. (E2) L'editing degli attributi propone possibili direzioni di modifica per cambiare un aspetto particolare della scena, come la densità complessiva degli oggetti o un oggetto specifico. Test estesi e confronti con i baseline dimostrano la generalità del nostro metodo. Crediamo che LooseControl possa diventare uno strumento di progettazione importante per creare facilmente ambienti complessi e possa essere esteso ad altre forme di canali di guida. Il codice e ulteriori informazioni sono disponibili all'indirizzo https://shariqfarooq123.github.io/loose-control/.
English
We present LooseControl to allow generalized depth conditioning for
diffusion-based image generation. ControlNet, the SOTA for depth-conditioned
image generation, produces remarkable results but relies on having access to
detailed depth maps for guidance. Creating such exact depth maps, in many
scenarios, is challenging. This paper introduces a generalized version of depth
conditioning that enables many new content-creation workflows. Specifically, we
allow (C1) scene boundary control for loosely specifying scenes with only
boundary conditions, and (C2) 3D box control for specifying layout locations of
the target objects rather than the exact shape and appearance of the objects.
Using LooseControl, along with text guidance, users can create complex
environments (e.g., rooms, street views, etc.) by specifying only scene
boundaries and locations of primary objects. Further, we provide two editing
mechanisms to refine the results: (E1) 3D box editing enables the user to
refine images by changing, adding, or removing boxes while freezing the style
of the image. This yields minimal changes apart from changes induced by the
edited boxes. (E2) Attribute editing proposes possible editing directions to
change one particular aspect of the scene, such as the overall object density
or a particular object. Extensive tests and comparisons with baselines
demonstrate the generality of our method. We believe that LooseControl can
become an important design tool for easily creating complex environments and be
extended to other forms of guidance channels. Code and more information are
available at https://shariqfarooq123.github.io/loose-control/ .