Wonderland: Navegación en Escenas 3D a partir de una Única Imagen
Wonderland: Navigating 3D Scenes from a Single Image
December 16, 2024
Autores: Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
cs.AI
Resumen
Este documento aborda una pregunta desafiante: ¿Cómo podemos crear de manera eficiente escenas 3D de alta calidad y amplio alcance a partir de una única imagen arbitraria? Los métodos existentes enfrentan varias limitaciones, como la necesidad de datos de múltiples vistas, optimización por escena que consume mucho tiempo, baja calidad visual en los fondos y reconstrucciones distorsionadas en áreas no vistas. Proponemos un nuevo proceso para superar estas limitaciones. Específicamente, introducimos un modelo de reconstrucción a gran escala que utiliza latentes de un modelo de difusión de video para predecir "Gaussian Splattings" en 3D para las escenas de manera directa. El modelo de difusión de video está diseñado para crear videos siguiendo precisamente trayectorias de cámara especificadas, lo que le permite generar latentes de video comprimidos que contienen información de múltiples vistas manteniendo la consistencia en 3D. Entrenamos el modelo de reconstrucción en 3D para operar en el espacio latente de video con una estrategia de entrenamiento progresiva, lo que permite la generación eficiente de escenas 3D de alta calidad, amplio alcance y genéricas. Evaluaciones extensas en varios conjuntos de datos demuestran que nuestro modelo supera significativamente a los métodos existentes para la generación de escenas 3D de una sola vista, especialmente con imágenes fuera del dominio. Por primera vez, demostramos que un modelo de reconstrucción en 3D puede construirse de manera efectiva sobre el espacio latente de un modelo de difusión para lograr una generación eficiente de escenas 3D.
English
This paper addresses a challenging question: How can we efficiently create
high-quality, wide-scope 3D scenes from a single arbitrary image? Existing
methods face several constraints, such as requiring multi-view data,
time-consuming per-scene optimization, low visual quality in backgrounds, and
distorted reconstructions in unseen areas. We propose a novel pipeline to
overcome these limitations. Specifically, we introduce a large-scale
reconstruction model that uses latents from a video diffusion model to predict
3D Gaussian Splattings for the scenes in a feed-forward manner. The video
diffusion model is designed to create videos precisely following specified
camera trajectories, allowing it to generate compressed video latents that
contain multi-view information while maintaining 3D consistency. We train the
3D reconstruction model to operate on the video latent space with a progressive
training strategy, enabling the efficient generation of high-quality,
wide-scope, and generic 3D scenes. Extensive evaluations across various
datasets demonstrate that our model significantly outperforms existing methods
for single-view 3D scene generation, particularly with out-of-domain images.
For the first time, we demonstrate that a 3D reconstruction model can be
effectively built upon the latent space of a diffusion model to realize
efficient 3D scene generation.Summary
AI-Generated Summary