Geração de Cenas 3D Desembaraçadas com Aprendizado de Layout

Resumo

Apresentamos um método para gerar cenas 3D que são desacopladas em seus objetos componentes. Esse desacoplamento é não supervisionado, dependendo apenas do conhecimento de um grande modelo pré-treinado de texto para imagem. Nossa principal percepção é que os objetos podem ser descobertos ao identificar partes de uma cena 3D que, quando rearranjadas espacialmente, ainda produzem configurações válidas da mesma cena. Concretamente, nosso método otimiza conjuntamente múltiplos NeRFs do zero — cada um representando seu próprio objeto — juntamente com um conjunto de layouts que compõem esses objetos em cenas. Em seguida, incentivamos que essas cenas compostas estejam dentro da distribuição de acordo com o gerador de imagens. Mostramos que, apesar de sua simplicidade, nossa abordagem gera com sucesso cenas 3D decompostas em objetos individuais, permitindo novas capacidades na criação de conteúdo de texto para 3D. Para resultados e uma demonstração interativa, consulte nossa página do projeto em https://dave.ml/layoutlearning/.

English

We introduce a method to generate 3D scenes that are disentangled into their component objects. This disentanglement is unsupervised, relying only on the knowledge of a large pretrained text-to-image model. Our key insight is that objects can be discovered by finding parts of a 3D scene that, when rearranged spatially, still produce valid configurations of the same scene. Concretely, our method jointly optimizes multiple NeRFs from scratch - each representing its own object - along with a set of layouts that composite these objects into scenes. We then encourage these composited scenes to be in-distribution according to the image generator. We show that despite its simplicity, our approach successfully generates 3D scenes decomposed into individual objects, enabling new capabilities in text-to-3D content creation. For results and an interactive demo, see our project page at https://dave.ml/layoutlearning/

Geração de Cenas 3D Desembaraçadas com Aprendizado de Layout

Disentangled 3D Scene Generation with Layout Learning

Resumo

Support