FDGaussian: Rasterização Gaussiana Rápida a partir de uma Única Imagem via Modelo de Difusão com Consciência Geométrica
FDGaussian: Fast Gaussian Splatting from Single Image via Geometric-aware Diffusion Model
March 15, 2024
Autores: Qijun Feng, Zhen Xing, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumo
Reconstruir objetos 3D detalhados a partir de imagens de visão única continua sendo uma tarefa desafiadora devido à informação limitada disponível. Neste artigo, apresentamos o FDGaussian, uma nova estrutura de duas etapas para reconstrução 3D a partir de uma única imagem. Métodos recentes geralmente utilizam modelos de difusão 2D pré-treinados para gerar novas visões plausíveis a partir da imagem de entrada, mas enfrentam problemas com inconsistência multi-visual ou falta de fidelidade geométrica. Para superar esses desafios, propomos um mecanismo de decomposição em planos ortogonais para extrair características geométricas 3D da entrada 2D, permitindo a geração de imagens multi-visuais consistentes. Além disso, aceleramos ainda mais o estado da arte do Gaussian Splatting, incorporando atenção epipolar para fundir imagens de diferentes pontos de vista. Demonstramos que o FDGaussian gera imagens com alta consistência entre diferentes visões e reconstrói objetos 3D de alta qualidade, tanto qualitativa quanto quantitativamente. Mais exemplos podem ser encontrados em nosso site https://qjfeng.net/FDGaussian/.
English
Reconstructing detailed 3D objects from single-view images remains a
challenging task due to the limited information available. In this paper, we
introduce FDGaussian, a novel two-stage framework for single-image 3D
reconstruction. Recent methods typically utilize pre-trained 2D diffusion
models to generate plausible novel views from the input image, yet they
encounter issues with either multi-view inconsistency or lack of geometric
fidelity. To overcome these challenges, we propose an orthogonal plane
decomposition mechanism to extract 3D geometric features from the 2D input,
enabling the generation of consistent multi-view images. Moreover, we further
accelerate the state-of-the-art Gaussian Splatting incorporating epipolar
attention to fuse images from different viewpoints. We demonstrate that
FDGaussian generates images with high consistency across different views and
reconstructs high-quality 3D objects, both qualitatively and quantitatively.
More examples can be found at our website https://qjfeng.net/FDGaussian/.