ChatPaper.aiChatPaper

LooseControl: Extendiendo ControlNet para el condicionamiento generalizado de profundidad

LooseControl: Lifting ControlNet for Generalized Depth Conditioning

December 5, 2023
Autores: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI

Resumen

Presentamos LooseControl para permitir el condicionamiento generalizado de profundidad en la generación de imágenes basada en difusión. ControlNet, el estado del arte (SOTA) para la generación de imágenes condicionadas por profundidad, produce resultados notables, pero depende del acceso a mapas de profundidad detallados para su guía. Crear tales mapas de profundidad exactos, en muchos escenarios, es un desafío. Este artículo introduce una versión generalizada del condicionamiento de profundidad que permite muchos nuevos flujos de trabajo de creación de contenido. Específicamente, permitimos (C1) el control de límites de escena para especificar de manera aproximada escenas con solo condiciones de límite, y (C2) el control de cajas 3D para especificar las ubicaciones de diseño de los objetos objetivo en lugar de la forma y apariencia exacta de los objetos. Usando LooseControl, junto con la guía de texto, los usuarios pueden crear entornos complejos (por ejemplo, habitaciones, vistas de calles, etc.) especificando solo los límites de la escena y las ubicaciones de los objetos principales. Además, proporcionamos dos mecanismos de edición para refinar los resultados: (E1) la edición de cajas 3D permite al usuario refinar imágenes cambiando, agregando o eliminando cajas mientras se congela el estilo de la imagen. Esto produce cambios mínimos aparte de los inducidos por las cajas editadas. (E2) La edición de atributos propone posibles direcciones de edición para cambiar un aspecto particular de la escena, como la densidad general de objetos o un objeto específico. Pruebas extensas y comparaciones con líneas base demuestran la generalidad de nuestro método. Creemos que LooseControl puede convertirse en una herramienta de diseño importante para crear fácilmente entornos complejos y extenderse a otras formas de canales de guía. El código y más información están disponibles en https://shariqfarooq123.github.io/loose-control/.
English
We present LooseControl to allow generalized depth conditioning for diffusion-based image generation. ControlNet, the SOTA for depth-conditioned image generation, produces remarkable results but relies on having access to detailed depth maps for guidance. Creating such exact depth maps, in many scenarios, is challenging. This paper introduces a generalized version of depth conditioning that enables many new content-creation workflows. Specifically, we allow (C1) scene boundary control for loosely specifying scenes with only boundary conditions, and (C2) 3D box control for specifying layout locations of the target objects rather than the exact shape and appearance of the objects. Using LooseControl, along with text guidance, users can create complex environments (e.g., rooms, street views, etc.) by specifying only scene boundaries and locations of primary objects. Further, we provide two editing mechanisms to refine the results: (E1) 3D box editing enables the user to refine images by changing, adding, or removing boxes while freezing the style of the image. This yields minimal changes apart from changes induced by the edited boxes. (E2) Attribute editing proposes possible editing directions to change one particular aspect of the scene, such as the overall object density or a particular object. Extensive tests and comparisons with baselines demonstrate the generality of our method. We believe that LooseControl can become an important design tool for easily creating complex environments and be extended to other forms of guidance channels. Code and more information are available at https://shariqfarooq123.github.io/loose-control/ .
PDF152December 15, 2024