Construcción de Escenas: Control Interactivo de Diseño 3D para la Generación de Imágenes basada en Difusión

Resumen

Proponemos un enfoque basado en difusión para la generación de Texto-a-Imagen (T2I) con control interactivo de diseño 3D. El control de diseño ha sido ampliamente estudiado para mitigar las deficiencias de los modelos de difusión T2I en la comprensión de la ubicación y relaciones de objetos a partir de descripciones de texto. Sin embargo, los enfoques existentes para el control de diseño se limitan a diseños 2D, requieren que el usuario proporcione un diseño estático de antemano y no logran preservar las imágenes generadas ante cambios en el diseño. Esto hace que estos enfoques no sean adecuados para aplicaciones que requieren control tridimensional de objetos y refinamientos iterativos, por ejemplo, diseño de interiores y generación de escenas complejas. Con este fin, aprovechamos los avances recientes en modelos T2I condicionados por profundidad y proponemos un enfoque novedoso para el control interactivo de diseño 3D. Reemplazamos los tradicionales cuadros 2D utilizados en el control de diseño con cuadros 3D. Además, transformamos la tarea T2I en un proceso de generación multi-etapa, donde en cada etapa, el usuario puede insertar, cambiar y mover un objeto en 3D mientras se preservan los objetos de etapas anteriores. Logramos esto a través de nuestro módulo propuesto de Autoatención Dinámica (DSA) y la estrategia de traducción de objetos 3D coherente. Los experimentos muestran que nuestro enfoque puede generar escenas complicadas basadas en diseños 3D, aumentando la tasa de éxito en la generación de objetos en un 2x en comparación con los métodos estándar de T2I condicionados por profundidad. Además, supera a otros métodos en la preservación de objetos ante cambios en el diseño. Página del Proyecto: https://abdo-eldesokey.github.io/build-a-scene/

English

We propose a diffusion-based approach for Text-to-Image (T2I) generation with interactive 3D layout control. Layout control has been widely studied to alleviate the shortcomings of T2I diffusion models in understanding objects' placement and relationships from text descriptions. Nevertheless, existing approaches for layout control are limited to 2D layouts, require the user to provide a static layout beforehand, and fail to preserve generated images under layout changes. This makes these approaches unsuitable for applications that require 3D object-wise control and iterative refinements, e.g., interior design and complex scene generation. To this end, we leverage the recent advancements in depth-conditioned T2I models and propose a novel approach for interactive 3D layout control. We replace the traditional 2D boxes used in layout control with 3D boxes. Furthermore, we revamp the T2I task as a multi-stage generation process, where at each stage, the user can insert, change, and move an object in 3D while preserving objects from earlier stages. We achieve this through our proposed Dynamic Self-Attention (DSA) module and the consistent 3D object translation strategy. Experiments show that our approach can generate complicated scenes based on 3D layouts, boosting the object generation success rate over the standard depth-conditioned T2I methods by 2x. Moreover, it outperforms other methods in comparison in preserving objects under layout changes. Project Page: https://abdo-eldesokey.github.io/build-a-scene/

Construcción de Escenas: Control Interactivo de Diseño 3D para la Generación de Imágenes basada en Difusión

Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation

Resumen

Support