Generación de Escenas 3D Desenredadas con Aprendizaje de Disposición

Resumen

Presentamos un método para generar escenas 3D que se descomponen en sus objetos componentes. Esta descomposición es no supervisada, basándose únicamente en el conocimiento de un modelo preentrenado de texto a imagen de gran escala. Nuestra idea clave es que los objetos pueden descubrirse al identificar partes de una escena 3D que, al ser reorganizadas espacialmente, siguen produciendo configuraciones válidas de la misma escena. Concretamente, nuestro método optimiza conjuntamente múltiples NeRFs desde cero - cada uno representando su propio objeto - junto con un conjunto de diseños que combinan estos objetos en escenas. Luego, incentivamos a que estas escenas compuestas estén dentro de la distribución según el generador de imágenes. Demostramos que, a pesar de su simplicidad, nuestro enfoque genera con éxito escenas 3D descompuestas en objetos individuales, permitiendo nuevas capacidades en la creación de contenido de texto a 3D. Para ver los resultados y una demostración interactiva, visite nuestra página del proyecto en https://dave.ml/layoutlearning/.

English

We introduce a method to generate 3D scenes that are disentangled into their component objects. This disentanglement is unsupervised, relying only on the knowledge of a large pretrained text-to-image model. Our key insight is that objects can be discovered by finding parts of a 3D scene that, when rearranged spatially, still produce valid configurations of the same scene. Concretely, our method jointly optimizes multiple NeRFs from scratch - each representing its own object - along with a set of layouts that composite these objects into scenes. We then encourage these composited scenes to be in-distribution according to the image generator. We show that despite its simplicity, our approach successfully generates 3D scenes decomposed into individual objects, enabling new capabilities in text-to-3D content creation. For results and an interactive demo, see our project page at https://dave.ml/layoutlearning/

Generación de Escenas 3D Desenredadas con Aprendizaje de Disposición

Disentangled 3D Scene Generation with Layout Learning

Resumen

Support