MaGRITTe: Realizzazione Manipolativa e Generativa 3D da Immagine, Vista dall'Alto e Testo
MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text
March 30, 2024
Autori: Takayuki Hara, Tatsuya Harada
cs.AI
Abstract
La generazione di scene 3D a partire da condizioni specificate dall'utente rappresenta una promettente via per alleviare il carico di produzione nelle applicazioni 3D. Studi precedenti richiedevano uno sforzo significativo per realizzare la scena desiderata, a causa delle limitate condizioni di controllo. Proponiamo un metodo per controllare e generare scene 3D sotto condizioni multimodali utilizzando immagini parziali, informazioni di layout rappresentate in vista dall'alto e prompt testuali. Combinare queste condizioni per generare una scena 3D comporta le seguenti difficoltà significative: (1) la creazione di grandi dataset, (2) la riflessione sull'interazione delle condizioni multimodali e (3) la dipendenza dal dominio delle condizioni di layout. Scomponiamo il processo di generazione di scene 3D in generazione di immagini 2D dalle condizioni date e generazione di scene 3D da immagini 2D. La generazione di immagini 2D è ottenuta attraverso il fine-tuning di un modello pre-addestrato da testo a immagine con un piccolo dataset artificiale di immagini parziali e layout, mentre la generazione di scene 3D è realizzata mediante stima della profondità condizionata dal layout e campi di radianza neurale (NeRF), evitando così la creazione di grandi dataset. L'uso di una rappresentazione comune delle informazioni spaziali mediante immagini a 360 gradi consente di considerare le interazioni delle condizioni multimodali e riduce la dipendenza dal dominio del controllo del layout. I risultati sperimentali hanno dimostrato qualitativamente e quantitativamente che il metodo proposto è in grado di generare scene 3D in diversi domini, dall'interno all'esterno, in base a condizioni multimodali.
English
The generation of 3D scenes from user-specified conditions offers a promising
avenue for alleviating the production burden in 3D applications. Previous
studies required significant effort to realize the desired scene, owing to
limited control conditions. We propose a method for controlling and generating
3D scenes under multimodal conditions using partial images, layout information
represented in the top view, and text prompts. Combining these conditions to
generate a 3D scene involves the following significant difficulties: (1) the
creation of large datasets, (2) reflection on the interaction of multimodal
conditions, and (3) domain dependence of the layout conditions. We decompose
the process of 3D scene generation into 2D image generation from the given
conditions and 3D scene generation from 2D images. 2D image generation is
achieved by fine-tuning a pretrained text-to-image model with a small
artificial dataset of partial images and layouts, and 3D scene generation is
achieved by layout-conditioned depth estimation and neural radiance fields
(NeRF), thereby avoiding the creation of large datasets. The use of a common
representation of spatial information using 360-degree images allows for the
consideration of multimodal condition interactions and reduces the domain
dependence of the layout control. The experimental results qualitatively and
quantitatively demonstrated that the proposed method can generate 3D scenes in
diverse domains, from indoor to outdoor, according to multimodal conditions.