MaGRITTe: Manipulative und Generative 3D Realisierung aus Bild, Vogelperspektive und Text
MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text
March 30, 2024
Autoren: Takayuki Hara, Tatsuya Harada
cs.AI
Zusammenfassung
Die Generierung von 3D-Szenen aus benutzerspezifischen Bedingungen bietet einen vielversprechenden Ansatz zur Entlastung der Produktionslast in 3D-Anwendungen. Frühere Studien erforderten erheblichen Aufwand, um die gewünschte Szene zu realisieren, aufgrund begrenzter Steuerungsbedingungen. Wir schlagen eine Methode zur Steuerung und Generierung von 3D-Szenen unter multimodalen Bedingungen vor, die teilweise Bilder, Layout-Informationen im Top-View und Texteingaben verwendet. Die Kombination dieser Bedingungen zur Generierung einer 3D-Szene birgt folgende wesentliche Schwierigkeiten: (1) die Erstellung großer Datensätze, (2) die Berücksichtigung der Interaktion multimodaler Bedingungen und (3) die Domänenabhängigkeit der Layout-Bedingungen. Wir zerlegen den Prozess der 3D-Szenengenerierung in die Generierung von 2D-Bildern aus den gegebenen Bedingungen und die Generierung von 3D-Szenen aus 2D-Bildern. Die Generierung von 2D-Bildern erfolgt durch Feinabstimmung eines vorab trainierten Text-zu-Bild-Modells mit einem kleinen künstlichen Datensatz von teilweisen Bildern und Layouts, und die Generierung von 3D-Szenen erfolgt durch layout-konditionierte Tiefenschätzung und neurale Strahlungsfelder (NeRF), wodurch die Erstellung großer Datensätze vermieden wird. Die Verwendung einer gemeinsamen Darstellung von räumlichen Informationen mithilfe von 360-Grad-Bildern ermöglicht die Berücksichtigung der Interaktionen multimodaler Bedingungen und verringert die Domänenabhängigkeit der Layout-Steuerung. Die experimentellen Ergebnisse haben qualitativ und quantitativ gezeigt, dass die vorgeschlagene Methode 3D-Szenen in verschiedenen Bereichen, von Innenräumen bis zu Außenbereichen, gemäß multimodalen Bedingungen generieren kann.
English
The generation of 3D scenes from user-specified conditions offers a promising
avenue for alleviating the production burden in 3D applications. Previous
studies required significant effort to realize the desired scene, owing to
limited control conditions. We propose a method for controlling and generating
3D scenes under multimodal conditions using partial images, layout information
represented in the top view, and text prompts. Combining these conditions to
generate a 3D scene involves the following significant difficulties: (1) the
creation of large datasets, (2) reflection on the interaction of multimodal
conditions, and (3) domain dependence of the layout conditions. We decompose
the process of 3D scene generation into 2D image generation from the given
conditions and 3D scene generation from 2D images. 2D image generation is
achieved by fine-tuning a pretrained text-to-image model with a small
artificial dataset of partial images and layouts, and 3D scene generation is
achieved by layout-conditioned depth estimation and neural radiance fields
(NeRF), thereby avoiding the creation of large datasets. The use of a common
representation of spatial information using 360-degree images allows for the
consideration of multimodal condition interactions and reduces the domain
dependence of the layout control. The experimental results qualitatively and
quantitatively demonstrated that the proposed method can generate 3D scenes in
diverse domains, from indoor to outdoor, according to multimodal conditions.Summary
AI-Generated Summary