FreeSplatter: Pose-freies Gauss-Splatting für die 3D-Rekonstruktion mit dünn besetzten Ansichten
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction
December 12, 2024
Autoren: Jiale Xu, Shenghua Gao, Ying Shan
cs.AI
Zusammenfassung
Bestehende Sparse-View-Rekonstruktionsmodelle sind stark auf genaue bekannte Kamerapositionen angewiesen. Die Ableitung von Kameraextrinsiken und Intrinsiken aus Sparse-View-Bildern stellt jedoch erhebliche Herausforderungen dar. In dieser Arbeit präsentieren wir FreeSplatter, ein hoch skalierbares, feedforward Rekonstruktions-Framework, das in der Lage ist, hochwertige 3D-Gaußsche aus unkalibrierten Sparse-View-Bildern zu generieren und deren Kameraparameter in nur wenigen Sekunden wiederherzustellen. FreeSplatter basiert auf einer schlanken Transformer-Architektur, die aus aufeinanderfolgenden Self-Attention-Blöcken besteht, die den Informationsaustausch zwischen Multi-View-Bildtokens erleichtern und sie in pixelweise 3D-Gaußsche Primitive decodieren. Die vorhergesagten Gaußschen Primitive sind in einem vereinheitlichten Bezugssystem platziert, was eine hochwertige 3D-Modellierung und eine sofortige Kameraparameterschätzung mithilfe handelsüblicher Solver ermöglicht. Um sowohl objektorientierte als auch szenenbasierte Rekonstruktionen zu ermöglichen, trainieren wir zwei Modellvarianten von FreeSplatter auf umfangreichen Datensätzen. In beiden Szenarien übertrifft FreeSplatter die State-of-the-Art-Baselines hinsichtlich Rekonstruktionsqualität und Pose-Schätzungsgenauigkeit. Darüber hinaus zeigen wir das Potenzial von FreeSplatter zur Steigerung der Produktivität von nachgelagerten Anwendungen, wie der Text-/Bild-zu-3D-Inhaltskreation.
English
Existing sparse-view reconstruction models heavily rely on accurate known
camera poses. However, deriving camera extrinsics and intrinsics from
sparse-view images presents significant challenges. In this work, we present
FreeSplatter, a highly scalable, feed-forward reconstruction framework capable
of generating high-quality 3D Gaussians from uncalibrated sparse-view images
and recovering their camera parameters in mere seconds. FreeSplatter is built
upon a streamlined transformer architecture, comprising sequential
self-attention blocks that facilitate information exchange among multi-view
image tokens and decode them into pixel-wise 3D Gaussian primitives. The
predicted Gaussian primitives are situated in a unified reference frame,
allowing for high-fidelity 3D modeling and instant camera parameter estimation
using off-the-shelf solvers. To cater to both object-centric and scene-level
reconstruction, we train two model variants of FreeSplatter on extensive
datasets. In both scenarios, FreeSplatter outperforms state-of-the-art
baselines in terms of reconstruction quality and pose estimation accuracy.
Furthermore, we showcase FreeSplatter's potential in enhancing the productivity
of downstream applications, such as text/image-to-3D content creation.Summary
AI-Generated Summary