MaGRITTe: Realização Manipulativa e Generativa 3D a partir de Imagem, Vista Superior e Texto
MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text
March 30, 2024
Autores: Takayuki Hara, Tatsuya Harada
cs.AI
Resumo
A geração de cenas 3D a partir de condições especificadas pelo usuário oferece uma abordagem promissora para aliviar o fardo de produção em aplicações 3D. Estudos anteriores exigiam um esforço significativo para realizar a cena desejada, devido às condições de controle limitadas. Propomos um método para controlar e gerar cenas 3D sob condições multimodais utilizando imagens parciais, informações de layout representadas na vista superior e prompts de texto. Combinar essas condições para gerar uma cena 3D envolve as seguintes dificuldades significativas: (1) a criação de grandes conjuntos de dados, (2) a consideração da interação de condições multimodais e (3) a dependência de domínio das condições de layout. Decompomos o processo de geração de cenas 3D em geração de imagens 2D a partir das condições dadas e geração de cenas 3D a partir de imagens 2D. A geração de imagens 2D é alcançada por meio do ajuste fino de um modelo pré-treinado de texto para imagem com um pequeno conjunto de dados artificiais de imagens parciais e layouts, e a geração de cenas 3D é realizada por meio de estimativa de profundidade condicionada ao layout e campos de radiação neural (NeRF), evitando assim a criação de grandes conjuntos de dados. O uso de uma representação comum de informações espaciais utilizando imagens de 360 graus permite a consideração das interações de condições multimodais e reduz a dependência de domínio do controle de layout. Os resultados experimentais demonstraram qualitativa e quantitativamente que o método proposto pode gerar cenas 3D em diversos domínios, de ambientes internos a externos, de acordo com condições multimodais.
English
The generation of 3D scenes from user-specified conditions offers a promising
avenue for alleviating the production burden in 3D applications. Previous
studies required significant effort to realize the desired scene, owing to
limited control conditions. We propose a method for controlling and generating
3D scenes under multimodal conditions using partial images, layout information
represented in the top view, and text prompts. Combining these conditions to
generate a 3D scene involves the following significant difficulties: (1) the
creation of large datasets, (2) reflection on the interaction of multimodal
conditions, and (3) domain dependence of the layout conditions. We decompose
the process of 3D scene generation into 2D image generation from the given
conditions and 3D scene generation from 2D images. 2D image generation is
achieved by fine-tuning a pretrained text-to-image model with a small
artificial dataset of partial images and layouts, and 3D scene generation is
achieved by layout-conditioned depth estimation and neural radiance fields
(NeRF), thereby avoiding the creation of large datasets. The use of a common
representation of spatial information using 360-degree images allows for the
consideration of multimodal condition interactions and reduces the domain
dependence of the layout control. The experimental results qualitatively and
quantitatively demonstrated that the proposed method can generate 3D scenes in
diverse domains, from indoor to outdoor, according to multimodal conditions.