ReconX: Reconstrução de Qualquer Cena a Partir de Visões Esparsas com Modelo de Difusão em Vídeo
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model
August 29, 2024
Autores: Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan
cs.AI
Resumo
Os avanços na reconstrução de cenas 3D transformaram imagens 2D do mundo real em modelos 3D, produzindo resultados tridimensionais realistas a partir de centenas de fotos de entrada. Apesar do grande sucesso em cenários de reconstrução com vistas densas, a renderização de uma cena detalhada a partir de vistas capturadas insuficientes ainda é um problema de otimização mal-posto, frequentemente resultando em artefatos e distorções em áreas não observadas. Neste artigo, propomos o ReconX, um novo paradigma de reconstrução de cenas 3D que reformula o desafio ambíguo da reconstrução como uma tarefa de geração temporal. A ideia fundamental é libertar o forte *prior* generativo de grandes modelos de difusão de vídeo pré-treinados para reconstrução com vistas esparsas. No entanto, a consistência de vista 3D luta para ser preservada com precisão em frames de vídeo gerados diretamente a partir de modelos pré-treinados. Para resolver isso, dadas vistas de entrada limitadas, o ReconX proposto primeiro constrói uma nuvem de pontos global e a codifica em um espaço contextual como condição de estrutura 3D. Guiado por esta condição, o modelo de difusão de vídeo sintetiza então frames de vídeo que são tanto preservadores de detalhes quanto exibem um alto grau de consistência 3D, garantindo a coerência da cena a partir de várias perspectivas. Finalmente, recuperamos a cena 3D a partir do vídeo gerado através de um esquema de otimização de *3D Gaussian Splatting* consciente da confiança. Experimentos extensivos em vários conjuntos de dados do mundo real mostram a superioridade do nosso ReconX sobre os métodos state-of-the-art em termos de qualidade e generalizabilidade.
English
Advancements in 3D scene reconstruction have transformed 2D images from the
real world into 3D models, producing realistic 3D results from hundreds of
input photos. Despite great success in dense-view reconstruction scenarios,
rendering a detailed scene from insufficient captured views is still an
ill-posed optimization problem, often resulting in artifacts and distortions in
unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction
paradigm that reframes the ambiguous reconstruction challenge as a temporal
generation task. The key insight is to unleash the strong generative prior of
large pre-trained video diffusion models for sparse-view reconstruction.
However, 3D view consistency struggles to be accurately preserved in directly
generated video frames from pre-trained models. To address this, given limited
input views, the proposed ReconX first constructs a global point cloud and
encodes it into a contextual space as the 3D structure condition. Guided by the
condition, the video diffusion model then synthesizes video frames that are
both detail-preserved and exhibit a high degree of 3D consistency, ensuring the
coherence of the scene from various perspectives. Finally, we recover the 3D
scene from the generated video through a confidence-aware 3D Gaussian Splatting
optimization scheme. Extensive experiments on various real-world datasets show
the superiority of our ReconX over state-of-the-art methods in terms of quality
and generalizability.