Wonderland: Navigeren door 3D-scènes vanuit een enkele afbeelding
Wonderland: Navigating 3D Scenes from a Single Image
December 16, 2024
Auteurs: Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
cs.AI
Samenvatting
Deze paper behandelt een uitdagende vraag: Hoe kunnen we efficiënt hoogwaardige, breed-scope 3D-scènes creëren vanuit een enkele willekeurige afbeelding? Bestaande methoden worden geconfronteerd met verschillende beperkingen, zoals het vereisen van multi-view data, tijdrovende optimalisatie per scène, lage visuele kwaliteit in achtergronden en vervormde reconstructies in onbekende gebieden. We stellen een nieuw proces voor om deze beperkingen te overwinnen. Specifiek introduceren we een grootschalig reconstructiemodel dat latenties van een video diffusiemodel gebruikt om 3D Gaussian Splattings voor de scènes op een feed-forward manier te voorspellen. Het video diffusiemodel is ontworpen om video's precies te creëren volgens gespecificeerde cameratrajecten, waardoor het gecomprimeerde video-latenties kan genereren die multi-view informatie bevatten terwijl ze 3D consistentie behouden. We trainen het 3D reconstructiemodel om te werken in de video latente ruimte met een progressieve trainingsstrategie, waardoor de efficiënte generatie van hoogwaardige, breed-scope en generieke 3D-scènes mogelijk is. Uitgebreide evaluaties over verschillende datasets tonen aan dat ons model aanzienlijk beter presteert dan bestaande methoden voor het genereren van 3D-scènes vanuit één weergave, vooral met afbeeldingen buiten het domein. Voor het eerst tonen we aan dat een 3D reconstructiemodel effectief kan worden opgebouwd op basis van de latente ruimte van een diffusiemodel om efficiënte 3D-scène generatie te realiseren.
English
This paper addresses a challenging question: How can we efficiently create
high-quality, wide-scope 3D scenes from a single arbitrary image? Existing
methods face several constraints, such as requiring multi-view data,
time-consuming per-scene optimization, low visual quality in backgrounds, and
distorted reconstructions in unseen areas. We propose a novel pipeline to
overcome these limitations. Specifically, we introduce a large-scale
reconstruction model that uses latents from a video diffusion model to predict
3D Gaussian Splattings for the scenes in a feed-forward manner. The video
diffusion model is designed to create videos precisely following specified
camera trajectories, allowing it to generate compressed video latents that
contain multi-view information while maintaining 3D consistency. We train the
3D reconstruction model to operate on the video latent space with a progressive
training strategy, enabling the efficient generation of high-quality,
wide-scope, and generic 3D scenes. Extensive evaluations across various
datasets demonstrate that our model significantly outperforms existing methods
for single-view 3D scene generation, particularly with out-of-domain images.
For the first time, we demonstrate that a 3D reconstruction model can be
effectively built upon the latent space of a diffusion model to realize
efficient 3D scene generation.