ChatPaper.aiChatPaper

FDGaussian: Rasterização Gaussiana Rápida a partir de uma Única Imagem via Modelo de Difusão com Consciência Geométrica

FDGaussian: Fast Gaussian Splatting from Single Image via Geometric-aware Diffusion Model

March 15, 2024
Autores: Qijun Feng, Zhen Xing, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Resumo

Reconstruir objetos 3D detalhados a partir de imagens de visão única continua sendo uma tarefa desafiadora devido à informação limitada disponível. Neste artigo, apresentamos o FDGaussian, uma nova estrutura de duas etapas para reconstrução 3D a partir de uma única imagem. Métodos recentes geralmente utilizam modelos de difusão 2D pré-treinados para gerar novas visões plausíveis a partir da imagem de entrada, mas enfrentam problemas com inconsistência multi-visual ou falta de fidelidade geométrica. Para superar esses desafios, propomos um mecanismo de decomposição em planos ortogonais para extrair características geométricas 3D da entrada 2D, permitindo a geração de imagens multi-visuais consistentes. Além disso, aceleramos ainda mais o estado da arte do Gaussian Splatting, incorporando atenção epipolar para fundir imagens de diferentes pontos de vista. Demonstramos que o FDGaussian gera imagens com alta consistência entre diferentes visões e reconstrói objetos 3D de alta qualidade, tanto qualitativa quanto quantitativamente. Mais exemplos podem ser encontrados em nosso site https://qjfeng.net/FDGaussian/.
English
Reconstructing detailed 3D objects from single-view images remains a challenging task due to the limited information available. In this paper, we introduce FDGaussian, a novel two-stage framework for single-image 3D reconstruction. Recent methods typically utilize pre-trained 2D diffusion models to generate plausible novel views from the input image, yet they encounter issues with either multi-view inconsistency or lack of geometric fidelity. To overcome these challenges, we propose an orthogonal plane decomposition mechanism to extract 3D geometric features from the 2D input, enabling the generation of consistent multi-view images. Moreover, we further accelerate the state-of-the-art Gaussian Splatting incorporating epipolar attention to fuse images from different viewpoints. We demonstrate that FDGaussian generates images with high consistency across different views and reconstructs high-quality 3D objects, both qualitatively and quantitatively. More examples can be found at our website https://qjfeng.net/FDGaussian/.
PDF112February 8, 2026