LucidDreamer: Domänenunabhängige Generierung von 3D-Gaußschen Splatting-Szenen
LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes
November 22, 2023
Autoren: Jaeyoung Chung, Suyoung Lee, Hyeongjin Nam, Jaerin Lee, Kyoung Mu Lee
cs.AI
Zusammenfassung
Mit der weit verbreiteten Nutzung von VR-Geräten und -Inhalten steigt die Nachfrage nach Techniken zur 3D-Szenengenerierung. Bestehende Modelle zur 3D-Szenengenerierung beschränken die Zielszene jedoch auf spezifische Domänen, hauptsächlich aufgrund ihrer Trainingsstrategien, die auf 3D-Scan-Datensätzen basieren, die weit von der realen Welt entfernt sind. Um diese Einschränkung zu überwinden, schlagen wir LucidDreamer vor, eine domänenfreie Szenengenerierungspipeline, die die Leistungsfähigkeit bestehender großskaliger, diffusionsbasierter generativer Modelle voll ausschöpft. Unser LucidDreamer besteht aus zwei alternierenden Schritten: Dreaming und Alignment. Zunächst generieren wir aus den Eingaben multi-view-konsistente Bilder, indem wir die Punktwolke als geometrische Leitlinie für jede Bildgenerierung verwenden. Konkret projizieren wir einen Teil der Punktwolke in die gewünschte Ansicht und nutzen die Projektion als Anleitung für das Inpainting mit dem generativen Modell. Die inpaintierten Bilder werden mit geschätzten Tiefenkarten in den 3D-Raum gehoben und bilden neue Punkte. Zweitens schlagen wir einen Aligning-Algorithmus vor, um die neuen Punkte harmonisch in die 3D-Szene zu integrieren. Die schließlich erhaltene 3D-Szene dient als Ausgangspunkt für die Optimierung von Gaussian Splats. LucidDreamer erzeugt Gaussian Splats, die im Vergleich zu früheren Methoden zur 3D-Szenengenerierung hochdetailliert sind, ohne Einschränkungen hinsichtlich der Domäne der Zielszene.
English
With the widespread usage of VR devices and contents, demands for 3D scene
generation techniques become more popular. Existing 3D scene generation models,
however, limit the target scene to specific domain, primarily due to their
training strategies using 3D scan dataset that is far from the real-world. To
address such limitation, we propose LucidDreamer, a domain-free scene
generation pipeline by fully leveraging the power of existing large-scale
diffusion-based generative model. Our LucidDreamer has two alternate steps:
Dreaming and Alignment. First, to generate multi-view consistent images from
inputs, we set the point cloud as a geometrical guideline for each image
generation. Specifically, we project a portion of point cloud to the desired
view and provide the projection as a guidance for inpainting using the
generative model. The inpainted images are lifted to 3D space with estimated
depth maps, composing a new points. Second, to aggregate the new points into
the 3D scene, we propose an aligning algorithm which harmoniously integrates
the portions of newly generated 3D scenes. The finally obtained 3D scene serves
as initial points for optimizing Gaussian splats. LucidDreamer produces
Gaussian splats that are highly-detailed compared to the previous 3D scene
generation methods, with no constraint on domain of the target scene.