ChatPaper.aiChatPaper

Wonderland: Navigeren door 3D-scènes vanuit een enkele afbeelding

Wonderland: Navigating 3D Scenes from a Single Image

December 16, 2024
Auteurs: Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
cs.AI

Samenvatting

Deze paper behandelt een uitdagende vraag: Hoe kunnen we efficiënt hoogwaardige, breed-scope 3D-scènes creëren vanuit een enkele willekeurige afbeelding? Bestaande methoden worden geconfronteerd met verschillende beperkingen, zoals het vereisen van multi-view data, tijdrovende optimalisatie per scène, lage visuele kwaliteit in achtergronden en vervormde reconstructies in onbekende gebieden. We stellen een nieuw proces voor om deze beperkingen te overwinnen. Specifiek introduceren we een grootschalig reconstructiemodel dat latenties van een video diffusiemodel gebruikt om 3D Gaussian Splattings voor de scènes op een feed-forward manier te voorspellen. Het video diffusiemodel is ontworpen om video's precies te creëren volgens gespecificeerde cameratrajecten, waardoor het gecomprimeerde video-latenties kan genereren die multi-view informatie bevatten terwijl ze 3D consistentie behouden. We trainen het 3D reconstructiemodel om te werken in de video latente ruimte met een progressieve trainingsstrategie, waardoor de efficiënte generatie van hoogwaardige, breed-scope en generieke 3D-scènes mogelijk is. Uitgebreide evaluaties over verschillende datasets tonen aan dat ons model aanzienlijk beter presteert dan bestaande methoden voor het genereren van 3D-scènes vanuit één weergave, vooral met afbeeldingen buiten het domein. Voor het eerst tonen we aan dat een 3D reconstructiemodel effectief kan worden opgebouwd op basis van de latente ruimte van een diffusiemodel om efficiënte 3D-scène generatie te realiseren.
English
This paper addresses a challenging question: How can we efficiently create high-quality, wide-scope 3D scenes from a single arbitrary image? Existing methods face several constraints, such as requiring multi-view data, time-consuming per-scene optimization, low visual quality in backgrounds, and distorted reconstructions in unseen areas. We propose a novel pipeline to overcome these limitations. Specifically, we introduce a large-scale reconstruction model that uses latents from a video diffusion model to predict 3D Gaussian Splattings for the scenes in a feed-forward manner. The video diffusion model is designed to create videos precisely following specified camera trajectories, allowing it to generate compressed video latents that contain multi-view information while maintaining 3D consistency. We train the 3D reconstruction model to operate on the video latent space with a progressive training strategy, enabling the efficient generation of high-quality, wide-scope, and generic 3D scenes. Extensive evaluations across various datasets demonstrate that our model significantly outperforms existing methods for single-view 3D scene generation, particularly with out-of-domain images. For the first time, we demonstrate that a 3D reconstruction model can be effectively built upon the latent space of a diffusion model to realize efficient 3D scene generation.
PDF162December 17, 2024