Generación de Escenas 3D Desenredadas con Aprendizaje de Disposición
Disentangled 3D Scene Generation with Layout Learning
February 26, 2024
Autores: Dave Epstein, Ben Poole, Ben Mildenhall, Alexei A. Efros, Aleksander Holynski
cs.AI
Resumen
Presentamos un método para generar escenas 3D que se descomponen en sus objetos componentes. Esta descomposición es no supervisada, basándose únicamente en el conocimiento de un modelo preentrenado de texto a imagen de gran escala. Nuestra idea clave es que los objetos pueden descubrirse al identificar partes de una escena 3D que, al ser reorganizadas espacialmente, siguen produciendo configuraciones válidas de la misma escena. Concretamente, nuestro método optimiza conjuntamente múltiples NeRFs desde cero - cada uno representando su propio objeto - junto con un conjunto de diseños que combinan estos objetos en escenas. Luego, incentivamos a que estas escenas compuestas estén dentro de la distribución según el generador de imágenes. Demostramos que, a pesar de su simplicidad, nuestro enfoque genera con éxito escenas 3D descompuestas en objetos individuales, permitiendo nuevas capacidades en la creación de contenido de texto a 3D. Para ver los resultados y una demostración interactiva, visite nuestra página del proyecto en https://dave.ml/layoutlearning/.
English
We introduce a method to generate 3D scenes that are disentangled into their
component objects. This disentanglement is unsupervised, relying only on the
knowledge of a large pretrained text-to-image model. Our key insight is that
objects can be discovered by finding parts of a 3D scene that, when rearranged
spatially, still produce valid configurations of the same scene. Concretely,
our method jointly optimizes multiple NeRFs from scratch - each representing
its own object - along with a set of layouts that composite these objects into
scenes. We then encourage these composited scenes to be in-distribution
according to the image generator. We show that despite its simplicity, our
approach successfully generates 3D scenes decomposed into individual objects,
enabling new capabilities in text-to-3D content creation. For results and an
interactive demo, see our project page at https://dave.ml/layoutlearning/