Wonderland: Navegación en Escenas 3D a partir de una Única Imagen

Resumen

Este documento aborda una pregunta desafiante: ¿Cómo podemos crear de manera eficiente escenas 3D de alta calidad y amplio alcance a partir de una única imagen arbitraria? Los métodos existentes enfrentan varias limitaciones, como la necesidad de datos de múltiples vistas, optimización por escena que consume mucho tiempo, baja calidad visual en los fondos y reconstrucciones distorsionadas en áreas no vistas. Proponemos un nuevo proceso para superar estas limitaciones. Específicamente, introducimos un modelo de reconstrucción a gran escala que utiliza latentes de un modelo de difusión de video para predecir "Gaussian Splattings" en 3D para las escenas de manera directa. El modelo de difusión de video está diseñado para crear videos siguiendo precisamente trayectorias de cámara especificadas, lo que le permite generar latentes de video comprimidos que contienen información de múltiples vistas manteniendo la consistencia en 3D. Entrenamos el modelo de reconstrucción en 3D para operar en el espacio latente de video con una estrategia de entrenamiento progresiva, lo que permite la generación eficiente de escenas 3D de alta calidad, amplio alcance y genéricas. Evaluaciones extensas en varios conjuntos de datos demuestran que nuestro modelo supera significativamente a los métodos existentes para la generación de escenas 3D de una sola vista, especialmente con imágenes fuera del dominio. Por primera vez, demostramos que un modelo de reconstrucción en 3D puede construirse de manera efectiva sobre el espacio latente de un modelo de difusión para lograr una generación eficiente de escenas 3D.

English

This paper addresses a challenging question: How can we efficiently create high-quality, wide-scope 3D scenes from a single arbitrary image? Existing methods face several constraints, such as requiring multi-view data, time-consuming per-scene optimization, low visual quality in backgrounds, and distorted reconstructions in unseen areas. We propose a novel pipeline to overcome these limitations. Specifically, we introduce a large-scale reconstruction model that uses latents from a video diffusion model to predict 3D Gaussian Splattings for the scenes in a feed-forward manner. The video diffusion model is designed to create videos precisely following specified camera trajectories, allowing it to generate compressed video latents that contain multi-view information while maintaining 3D consistency. We train the 3D reconstruction model to operate on the video latent space with a progressive training strategy, enabling the efficient generation of high-quality, wide-scope, and generic 3D scenes. Extensive evaluations across various datasets demonstrate that our model significantly outperforms existing methods for single-view 3D scene generation, particularly with out-of-domain images. For the first time, we demonstrate that a 3D reconstruction model can be effectively built upon the latent space of a diffusion model to realize efficient 3D scene generation.

Wonderland: Navegación en Escenas 3D a partir de una Única Imagen

Wonderland: Navigating 3D Scenes from a Single Image

Resumen

Support