FDGaussian: Rápida Representación Gaussiana a partir de una Imagen Única mediante un Modelo de Difusión con Conciencia Geométrica
FDGaussian: Fast Gaussian Splatting from Single Image via Geometric-aware Diffusion Model
March 15, 2024
Autores: Qijun Feng, Zhen Xing, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumen
Reconstruir objetos 3D detallados a partir de imágenes de una sola vista sigue siendo una tarea desafiante debido a la información limitada disponible. En este artículo, presentamos FDGaussian, un marco novedoso de dos etapas para la reconstrucción 3D a partir de una sola imagen. Los métodos recientes suelen utilizar modelos de difusión 2D preentrenados para generar vistas novedosas plausibles a partir de la imagen de entrada, pero se enfrentan a problemas de inconsistencia multivista o falta de fidelidad geométrica. Para superar estos desafíos, proponemos un mecanismo de descomposición en planos ortogonales para extraer características geométricas 3D a partir de la entrada 2D, lo que permite la generación de imágenes multivista consistentes. Además, aceleramos el estado del arte en Gaussian Splatting incorporando atención epipolar para fusionar imágenes desde diferentes puntos de vista. Demostramos que FDGaussian genera imágenes con alta consistencia entre diferentes vistas y reconstruye objetos 3D de alta calidad, tanto cualitativa como cuantitativamente. Más ejemplos pueden encontrarse en nuestro sitio web https://qjfeng.net/FDGaussian/.
English
Reconstructing detailed 3D objects from single-view images remains a
challenging task due to the limited information available. In this paper, we
introduce FDGaussian, a novel two-stage framework for single-image 3D
reconstruction. Recent methods typically utilize pre-trained 2D diffusion
models to generate plausible novel views from the input image, yet they
encounter issues with either multi-view inconsistency or lack of geometric
fidelity. To overcome these challenges, we propose an orthogonal plane
decomposition mechanism to extract 3D geometric features from the 2D input,
enabling the generation of consistent multi-view images. Moreover, we further
accelerate the state-of-the-art Gaussian Splatting incorporating epipolar
attention to fuse images from different viewpoints. We demonstrate that
FDGaussian generates images with high consistency across different views and
reconstructs high-quality 3D objects, both qualitatively and quantitatively.
More examples can be found at our website https://qjfeng.net/FDGaussian/.Summary
AI-Generated Summary