MaGRITTe: Realização Manipulativa e Generativa 3D a partir de Imagem, Vista Superior e Texto

Resumo

A geração de cenas 3D a partir de condições especificadas pelo usuário oferece uma abordagem promissora para aliviar o fardo de produção em aplicações 3D. Estudos anteriores exigiam um esforço significativo para realizar a cena desejada, devido às condições de controle limitadas. Propomos um método para controlar e gerar cenas 3D sob condições multimodais utilizando imagens parciais, informações de layout representadas na vista superior e prompts de texto. Combinar essas condições para gerar uma cena 3D envolve as seguintes dificuldades significativas: (1) a criação de grandes conjuntos de dados, (2) a consideração da interação de condições multimodais e (3) a dependência de domínio das condições de layout. Decompomos o processo de geração de cenas 3D em geração de imagens 2D a partir das condições dadas e geração de cenas 3D a partir de imagens 2D. A geração de imagens 2D é alcançada por meio do ajuste fino de um modelo pré-treinado de texto para imagem com um pequeno conjunto de dados artificiais de imagens parciais e layouts, e a geração de cenas 3D é realizada por meio de estimativa de profundidade condicionada ao layout e campos de radiação neural (NeRF), evitando assim a criação de grandes conjuntos de dados. O uso de uma representação comum de informações espaciais utilizando imagens de 360 graus permite a consideração das interações de condições multimodais e reduz a dependência de domínio do controle de layout. Os resultados experimentais demonstraram qualitativa e quantitativamente que o método proposto pode gerar cenas 3D em diversos domínios, de ambientes internos a externos, de acordo com condições multimodais.

English

The generation of 3D scenes from user-specified conditions offers a promising avenue for alleviating the production burden in 3D applications. Previous studies required significant effort to realize the desired scene, owing to limited control conditions. We propose a method for controlling and generating 3D scenes under multimodal conditions using partial images, layout information represented in the top view, and text prompts. Combining these conditions to generate a 3D scene involves the following significant difficulties: (1) the creation of large datasets, (2) reflection on the interaction of multimodal conditions, and (3) domain dependence of the layout conditions. We decompose the process of 3D scene generation into 2D image generation from the given conditions and 3D scene generation from 2D images. 2D image generation is achieved by fine-tuning a pretrained text-to-image model with a small artificial dataset of partial images and layouts, and 3D scene generation is achieved by layout-conditioned depth estimation and neural radiance fields (NeRF), thereby avoiding the creation of large datasets. The use of a common representation of spatial information using 360-degree images allows for the consideration of multimodal condition interactions and reduces the domain dependence of the layout control. The experimental results qualitatively and quantitatively demonstrated that the proposed method can generate 3D scenes in diverse domains, from indoor to outdoor, according to multimodal conditions.

MaGRITTe: Realização Manipulativa e Generativa 3D a partir de Imagem, Vista Superior e Texto

MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text

Resumo

Support