Construcción de Escenas: Control Interactivo de Diseño 3D para la Generación de Imágenes basada en Difusión
Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation
August 27, 2024
Autores: Abdelrahman Eldesokey, Peter Wonka
cs.AI
Resumen
Proponemos un enfoque basado en difusión para la generación de Texto-a-Imagen (T2I) con control interactivo de diseño 3D. El control de diseño ha sido ampliamente estudiado para mitigar las deficiencias de los modelos de difusión T2I en la comprensión de la ubicación y relaciones de objetos a partir de descripciones de texto. Sin embargo, los enfoques existentes para el control de diseño se limitan a diseños 2D, requieren que el usuario proporcione un diseño estático de antemano y no logran preservar las imágenes generadas ante cambios en el diseño. Esto hace que estos enfoques no sean adecuados para aplicaciones que requieren control tridimensional de objetos y refinamientos iterativos, por ejemplo, diseño de interiores y generación de escenas complejas. Con este fin, aprovechamos los avances recientes en modelos T2I condicionados por profundidad y proponemos un enfoque novedoso para el control interactivo de diseño 3D. Reemplazamos los tradicionales cuadros 2D utilizados en el control de diseño con cuadros 3D. Además, transformamos la tarea T2I en un proceso de generación multi-etapa, donde en cada etapa, el usuario puede insertar, cambiar y mover un objeto en 3D mientras se preservan los objetos de etapas anteriores. Logramos esto a través de nuestro módulo propuesto de Autoatención Dinámica (DSA) y la estrategia de traducción de objetos 3D coherente. Los experimentos muestran que nuestro enfoque puede generar escenas complicadas basadas en diseños 3D, aumentando la tasa de éxito en la generación de objetos en un 2x en comparación con los métodos estándar de T2I condicionados por profundidad. Además, supera a otros métodos en la preservación de objetos ante cambios en el diseño. Página del Proyecto: https://abdo-eldesokey.github.io/build-a-scene/
English
We propose a diffusion-based approach for Text-to-Image (T2I) generation with
interactive 3D layout control. Layout control has been widely studied to
alleviate the shortcomings of T2I diffusion models in understanding objects'
placement and relationships from text descriptions. Nevertheless, existing
approaches for layout control are limited to 2D layouts, require the user to
provide a static layout beforehand, and fail to preserve generated images under
layout changes. This makes these approaches unsuitable for applications that
require 3D object-wise control and iterative refinements, e.g., interior design
and complex scene generation. To this end, we leverage the recent advancements
in depth-conditioned T2I models and propose a novel approach for interactive 3D
layout control. We replace the traditional 2D boxes used in layout control with
3D boxes. Furthermore, we revamp the T2I task as a multi-stage generation
process, where at each stage, the user can insert, change, and move an object
in 3D while preserving objects from earlier stages. We achieve this through our
proposed Dynamic Self-Attention (DSA) module and the consistent 3D object
translation strategy. Experiments show that our approach can generate
complicated scenes based on 3D layouts, boosting the object generation success
rate over the standard depth-conditioned T2I methods by 2x. Moreover, it
outperforms other methods in comparison in preserving objects under layout
changes. Project Page: https://abdo-eldesokey.github.io/build-a-scene/Summary
AI-Generated Summary