FreeSplatter: Splatting Gaussiano sin poses para la reconstrucción 3D con vistas dispersas
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction
December 12, 2024
Autores: Jiale Xu, Shenghua Gao, Ying Shan
cs.AI
Resumen
Los modelos de reconstrucción de vista dispersa existentes dependen en gran medida de poses de cámara conocidas precisas. Sin embargo, derivar extrínsecos e intrínsecos de cámara a partir de imágenes de vista dispersa presenta desafíos significativos. En este trabajo, presentamos FreeSplatter, un marco de reconstrucción altamente escalable y de avance directo capaz de generar gaussianas 3D de alta calidad a partir de imágenes de vista dispersa no calibradas y recuperar sus parámetros de cámara en cuestión de segundos. FreeSplatter se basa en una arquitectura de transformador simplificada, que consta de bloques de autoatención secuenciales que facilitan el intercambio de información entre tokens de imagen de múltiples vistas y los decodifican en primitivas gaussianas 3D píxel a píxel. Las primitivas gaussianas predichas se sitúan en un marco de referencia unificado, lo que permite una modelización 3D de alta fidelidad y una estimación instantánea de parámetros de cámara utilizando solucionadores listos para usar. Para adaptarse tanto a la reconstrucción centrada en objetos como a nivel de escena, entrenamos dos variantes de modelo de FreeSplatter en conjuntos de datos extensos. En ambos escenarios, FreeSplatter supera a los baselines de vanguardia en cuanto a calidad de reconstrucción y precisión de estimación de pose. Además, demostramos el potencial de FreeSplatter para mejorar la productividad de aplicaciones posteriores, como la creación de contenido texto/imagen a 3D.
English
Existing sparse-view reconstruction models heavily rely on accurate known
camera poses. However, deriving camera extrinsics and intrinsics from
sparse-view images presents significant challenges. In this work, we present
FreeSplatter, a highly scalable, feed-forward reconstruction framework capable
of generating high-quality 3D Gaussians from uncalibrated sparse-view images
and recovering their camera parameters in mere seconds. FreeSplatter is built
upon a streamlined transformer architecture, comprising sequential
self-attention blocks that facilitate information exchange among multi-view
image tokens and decode them into pixel-wise 3D Gaussian primitives. The
predicted Gaussian primitives are situated in a unified reference frame,
allowing for high-fidelity 3D modeling and instant camera parameter estimation
using off-the-shelf solvers. To cater to both object-centric and scene-level
reconstruction, we train two model variants of FreeSplatter on extensive
datasets. In both scenarios, FreeSplatter outperforms state-of-the-art
baselines in terms of reconstruction quality and pose estimation accuracy.
Furthermore, we showcase FreeSplatter's potential in enhancing the productivity
of downstream applications, such as text/image-to-3D content creation.Summary
AI-Generated Summary