País das Maravilhas: Navegando por Cenários 3D a partir de uma Única Imagem
Wonderland: Navigating 3D Scenes from a Single Image
December 16, 2024
Autores: Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
cs.AI
Resumo
Este artigo aborda uma questão desafiadora: Como podemos criar de forma eficiente cenas 3D de alta qualidade e amplo alcance a partir de uma única imagem arbitrária? Métodos existentes enfrentam várias restrições, como a necessidade de dados de múltiplas visualizações, otimização demorada por cena, baixa qualidade visual em fundos e reconstruções distorcidas em áreas não vistas. Propomos um novo pipeline para superar essas limitações. Especificamente, introduzimos um modelo de reconstrução em grande escala que utiliza latentes de um modelo de difusão de vídeo para prever Splatting Gaussiano 3D para as cenas de forma direta. O modelo de difusão de vídeo é projetado para criar vídeos precisamente seguindo trajetórias de câmera especificadas, permitindo gerar latentes de vídeo comprimidos que contêm informações de múltiplas visualizações mantendo a consistência 3D. Treinamos o modelo de reconstrução 3D para operar no espaço latente de vídeo com uma estratégia de treinamento progressiva, possibilitando a geração eficiente de cenas 3D de alta qualidade, amplo alcance e genéricas. Avaliações extensivas em vários conjuntos de dados demonstram que nosso modelo supera significativamente os métodos existentes para geração de cenas 3D de única visualização, especialmente com imagens fora do domínio. Pela primeira vez, demonstramos que um modelo de reconstrução 3D pode ser construído de forma eficaz com base no espaço latente de um modelo de difusão para realizar a geração eficiente de cenas 3D.
English
This paper addresses a challenging question: How can we efficiently create
high-quality, wide-scope 3D scenes from a single arbitrary image? Existing
methods face several constraints, such as requiring multi-view data,
time-consuming per-scene optimization, low visual quality in backgrounds, and
distorted reconstructions in unseen areas. We propose a novel pipeline to
overcome these limitations. Specifically, we introduce a large-scale
reconstruction model that uses latents from a video diffusion model to predict
3D Gaussian Splattings for the scenes in a feed-forward manner. The video
diffusion model is designed to create videos precisely following specified
camera trajectories, allowing it to generate compressed video latents that
contain multi-view information while maintaining 3D consistency. We train the
3D reconstruction model to operate on the video latent space with a progressive
training strategy, enabling the efficient generation of high-quality,
wide-scope, and generic 3D scenes. Extensive evaluations across various
datasets demonstrate that our model significantly outperforms existing methods
for single-view 3D scene generation, particularly with out-of-domain images.
For the first time, we demonstrate that a 3D reconstruction model can be
effectively built upon the latent space of a diffusion model to realize
efficient 3D scene generation.Summary
AI-Generated Summary