ChatPaper.aiChatPaper

Wunderland: Navigieren in 3D-Szenen aus einem einzigen Bild

Wonderland: Navigating 3D Scenes from a Single Image

December 16, 2024
Autoren: Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
cs.AI

Zusammenfassung

Dieses Paper behandelt eine herausfordernde Frage: Wie können hochwertige, umfangreiche 3D-Szenen effizient aus einem einzigen beliebigen Bild erstellt werden? Bestehende Methoden stehen vor mehreren Einschränkungen, wie dem Bedarf an Multi-View-Daten, zeitaufwändiger Szenenoptimierung, geringer visueller Qualität in Hintergründen und verzerrten Rekonstruktionen in nicht gesehenen Bereichen. Wir schlagen eine neuartige Pipeline vor, um diese Einschränkungen zu überwinden. Konkret führen wir ein groß angelegtes Rekonstruktionsmodell ein, das Latente aus einem Video-Diffusionsmodell verwendet, um 3D-Gaußsche Splattings für die Szenen auf eine Feed-Forward-Art vorherzusagen. Das Video-Diffusionsmodell ist darauf ausgelegt, Videos präzise gemäß festgelegter Kameratrajektorien zu erstellen, was es ermöglicht, komprimierte Video-Latente zu generieren, die Multi-View-Informationen enthalten und gleichzeitig 3D-Konsistenz bewahren. Wir trainieren das 3D-Rekonstruktionsmodell darauf, im Video-Latenzraum mit einer progressiven Trainingsstrategie zu arbeiten, was die effiziente Generierung hochwertiger, umfangreicher und generischer 3D-Szenen ermöglicht. Umfangreiche Evaluationen über verschiedene Datensätze hinweg zeigen, dass unser Modell bestehende Methoden für die Generierung von 3D-Szenen aus einem einzigen Blickwinkel signifikant übertrifft, insbesondere bei Bildern außerhalb des Domänenbereichs. Zum ersten Mal zeigen wir, dass ein 3D-Rekonstruktionsmodell effektiv auf dem Latenzraum eines Diffusionsmodells aufgebaut werden kann, um eine effiziente Generierung von 3D-Szenen zu realisieren.
English
This paper addresses a challenging question: How can we efficiently create high-quality, wide-scope 3D scenes from a single arbitrary image? Existing methods face several constraints, such as requiring multi-view data, time-consuming per-scene optimization, low visual quality in backgrounds, and distorted reconstructions in unseen areas. We propose a novel pipeline to overcome these limitations. Specifically, we introduce a large-scale reconstruction model that uses latents from a video diffusion model to predict 3D Gaussian Splattings for the scenes in a feed-forward manner. The video diffusion model is designed to create videos precisely following specified camera trajectories, allowing it to generate compressed video latents that contain multi-view information while maintaining 3D consistency. We train the 3D reconstruction model to operate on the video latent space with a progressive training strategy, enabling the efficient generation of high-quality, wide-scope, and generic 3D scenes. Extensive evaluations across various datasets demonstrate that our model significantly outperforms existing methods for single-view 3D scene generation, particularly with out-of-domain images. For the first time, we demonstrate that a 3D reconstruction model can be effectively built upon the latent space of a diffusion model to realize efficient 3D scene generation.

Summary

AI-Generated Summary

PDF162December 17, 2024