ChatPaper.aiChatPaper

LooseControl: Estensione di ControlNet per il condizionamento generalizzato della profondità

LooseControl: Lifting ControlNet for Generalized Depth Conditioning

December 5, 2023
Autori: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI

Abstract

Presentiamo LooseControl per consentire un condizionamento generalizzato della profondità nella generazione di immagini basata su modelli di diffusione. ControlNet, lo stato dell'arte per la generazione di immagini condizionate dalla profondità, produce risultati notevoli ma si basa sull'accesso a mappe di profondità dettagliate per la guida. Creare tali mappe di profondità precise, in molti scenari, è impegnativo. Questo articolo introduce una versione generalizzata del condizionamento della profondità che abilita numerosi nuovi flussi di lavoro per la creazione di contenuti. Nello specifico, permettiamo (C1) il controllo dei confini della scena per specificare in modo approssimativo le scene con sole condizioni al contorno, e (C2) il controllo tramite box 3D per specificare le posizioni di layout degli oggetti target piuttosto che la forma e l'aspetto esatti degli oggetti. Utilizzando LooseControl, insieme alla guida testuale, gli utenti possono creare ambienti complessi (ad esempio, stanze, vedute stradali, ecc.) specificando solo i confini della scena e le posizioni degli oggetti principali. Inoltre, forniamo due meccanismi di editing per affinare i risultati: (E1) l'editing tramite box 3D consente all'utente di perfezionare le immagini modificando, aggiungendo o rimuovendo box mantenendo invariato lo stile dell'immagine. Ciò produce cambiamenti minimi a parte quelli indotti dai box modificati. (E2) L'editing degli attributi propone possibili direzioni di modifica per cambiare un aspetto particolare della scena, come la densità complessiva degli oggetti o un oggetto specifico. Test estesi e confronti con i baseline dimostrano la generalità del nostro metodo. Crediamo che LooseControl possa diventare uno strumento di progettazione importante per creare facilmente ambienti complessi e possa essere esteso ad altre forme di canali di guida. Il codice e ulteriori informazioni sono disponibili all'indirizzo https://shariqfarooq123.github.io/loose-control/.
English
We present LooseControl to allow generalized depth conditioning for diffusion-based image generation. ControlNet, the SOTA for depth-conditioned image generation, produces remarkable results but relies on having access to detailed depth maps for guidance. Creating such exact depth maps, in many scenarios, is challenging. This paper introduces a generalized version of depth conditioning that enables many new content-creation workflows. Specifically, we allow (C1) scene boundary control for loosely specifying scenes with only boundary conditions, and (C2) 3D box control for specifying layout locations of the target objects rather than the exact shape and appearance of the objects. Using LooseControl, along with text guidance, users can create complex environments (e.g., rooms, street views, etc.) by specifying only scene boundaries and locations of primary objects. Further, we provide two editing mechanisms to refine the results: (E1) 3D box editing enables the user to refine images by changing, adding, or removing boxes while freezing the style of the image. This yields minimal changes apart from changes induced by the edited boxes. (E2) Attribute editing proposes possible editing directions to change one particular aspect of the scene, such as the overall object density or a particular object. Extensive tests and comparisons with baselines demonstrate the generality of our method. We believe that LooseControl can become an important design tool for easily creating complex environments and be extended to other forms of guidance channels. Code and more information are available at https://shariqfarooq123.github.io/loose-control/ .
PDF162December 14, 2025