Geração de Cenas 3D Desembaraçadas com Aprendizado de Layout
Disentangled 3D Scene Generation with Layout Learning
February 26, 2024
Autores: Dave Epstein, Ben Poole, Ben Mildenhall, Alexei A. Efros, Aleksander Holynski
cs.AI
Resumo
Apresentamos um método para gerar cenas 3D que são desacopladas em seus objetos componentes. Esse desacoplamento é não supervisionado, dependendo apenas do conhecimento de um grande modelo pré-treinado de texto para imagem. Nossa principal percepção é que os objetos podem ser descobertos ao identificar partes de uma cena 3D que, quando rearranjadas espacialmente, ainda produzem configurações válidas da mesma cena. Concretamente, nosso método otimiza conjuntamente múltiplos NeRFs do zero — cada um representando seu próprio objeto — juntamente com um conjunto de layouts que compõem esses objetos em cenas. Em seguida, incentivamos que essas cenas compostas estejam dentro da distribuição de acordo com o gerador de imagens. Mostramos que, apesar de sua simplicidade, nossa abordagem gera com sucesso cenas 3D decompostas em objetos individuais, permitindo novas capacidades na criação de conteúdo de texto para 3D. Para resultados e uma demonstração interativa, consulte nossa página do projeto em https://dave.ml/layoutlearning/.
English
We introduce a method to generate 3D scenes that are disentangled into their
component objects. This disentanglement is unsupervised, relying only on the
knowledge of a large pretrained text-to-image model. Our key insight is that
objects can be discovered by finding parts of a 3D scene that, when rearranged
spatially, still produce valid configurations of the same scene. Concretely,
our method jointly optimizes multiple NeRFs from scratch - each representing
its own object - along with a set of layouts that composite these objects into
scenes. We then encourage these composited scenes to be in-distribution
according to the image generator. We show that despite its simplicity, our
approach successfully generates 3D scenes decomposed into individual objects,
enabling new capabilities in text-to-3D content creation. For results and an
interactive demo, see our project page at https://dave.ml/layoutlearning/