FDGaussian: Sfocatura Gaussiana Rapida da Immagine Singola tramite Modello di Diffusione con Consapevolezza Geometrica
FDGaussian: Fast Gaussian Splatting from Single Image via Geometric-aware Diffusion Model
March 15, 2024
Autori: Qijun Feng, Zhen Xing, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Abstract
La ricostruzione dettagliata di oggetti 3D a partire da immagini a singola vista rimane un compito impegnativo a causa delle informazioni limitate disponibili. In questo articolo, presentiamo FDGaussian, un nuovo framework a due fasi per la ricostruzione 3D da singola immagine. I metodi recenti utilizzano tipicamente modelli di diffusione 2D pre-addestrati per generare nuove viste plausibili dall'immagine di input, ma incontrano problemi di incoerenza multi-vista o mancanza di fedeltà geometrica. Per superare queste sfide, proponiamo un meccanismo di decomposizione su piani ortogonali per estrarre caratteristiche geometriche 3D dall'input 2D, consentendo la generazione di immagini multi-vista coerenti. Inoltre, acceleriamo ulteriormente lo stato dell'arte del Gaussian Splatting incorporando l'attenzione epipolare per fondere immagini da diverse prospettive. Dimostriamo che FDGaussian genera immagini con elevata coerenza tra le diverse viste e ricostruisce oggetti 3D di alta qualità, sia qualitativamente che quantitativamente. Altri esempi sono disponibili sul nostro sito web https://qjfeng.net/FDGaussian/.
English
Reconstructing detailed 3D objects from single-view images remains a
challenging task due to the limited information available. In this paper, we
introduce FDGaussian, a novel two-stage framework for single-image 3D
reconstruction. Recent methods typically utilize pre-trained 2D diffusion
models to generate plausible novel views from the input image, yet they
encounter issues with either multi-view inconsistency or lack of geometric
fidelity. To overcome these challenges, we propose an orthogonal plane
decomposition mechanism to extract 3D geometric features from the 2D input,
enabling the generation of consistent multi-view images. Moreover, we further
accelerate the state-of-the-art Gaussian Splatting incorporating epipolar
attention to fuse images from different viewpoints. We demonstrate that
FDGaussian generates images with high consistency across different views and
reconstructs high-quality 3D objects, both qualitatively and quantitatively.
More examples can be found at our website https://qjfeng.net/FDGaussian/.