FDGaussian : Projection Gaussienne Rapide à partir d'une Image Unique via un Modèle de Diffusion Sensible à la Géométrie
FDGaussian: Fast Gaussian Splatting from Single Image via Geometric-aware Diffusion Model
March 15, 2024
Auteurs: Qijun Feng, Zhen Xing, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Résumé
La reconstruction d'objets 3D détaillés à partir d'images monoculaires reste une tâche complexe en raison des informations limitées disponibles. Dans cet article, nous présentons FDGaussian, un nouveau cadre en deux étapes pour la reconstruction 3D à partir d'une seule image. Les méthodes récentes utilisent généralement des modèles de diffusion 2D pré-entraînés pour générer des vues plausibles à partir de l'image d'entrée, mais elles rencontrent des problèmes d'incohérence multi-vues ou de manque de fidélité géométrique. Pour surmonter ces défis, nous proposons un mécanisme de décomposition en plans orthogonaux pour extraire des caractéristiques géométriques 3D à partir de l'entrée 2D, permettant ainsi la génération d'images multi-vues cohérentes. De plus, nous accélérons l'état de l'art du Gaussian Splatting en intégrant une attention épipolaire pour fusionner les images provenant de différents points de vue. Nous démontrons que FDGaussian génère des images avec une grande cohérence entre les différentes vues et reconstruit des objets 3D de haute qualité, à la fois qualitativement et quantitativement. Plus d'exemples sont disponibles sur notre site web https://qjfeng.net/FDGaussian/.
English
Reconstructing detailed 3D objects from single-view images remains a
challenging task due to the limited information available. In this paper, we
introduce FDGaussian, a novel two-stage framework for single-image 3D
reconstruction. Recent methods typically utilize pre-trained 2D diffusion
models to generate plausible novel views from the input image, yet they
encounter issues with either multi-view inconsistency or lack of geometric
fidelity. To overcome these challenges, we propose an orthogonal plane
decomposition mechanism to extract 3D geometric features from the 2D input,
enabling the generation of consistent multi-view images. Moreover, we further
accelerate the state-of-the-art Gaussian Splatting incorporating epipolar
attention to fuse images from different viewpoints. We demonstrate that
FDGaussian generates images with high consistency across different views and
reconstructs high-quality 3D objects, both qualitatively and quantitatively.
More examples can be found at our website https://qjfeng.net/FDGaussian/.Summary
AI-Generated Summary