FreeSplatter: Pose-vrije Gaussisch splatten voor 3D-reconstructie met spaarzame weergave

Samenvatting

Bestaande modellen voor reconstructie van schaars beeld vertrouwen zwaar op nauwkeurige bekende cameraposities. Het afleiden van cameraparameters uit schaars beeld presenteert echter aanzienlijke uitdagingen. In dit werk presenteren we FreeSplatter, een zeer schaalbaar, feedforward reconstructiekader dat in staat is om hoogwaardige 3D-Gaussianen te genereren uit ongekalibreerde schaars beeld en hun cameraparameters in enkele seconden te herstellen. FreeSplatter is gebouwd op een gestroomlijnde transformer-architectuur, bestaande uit opeenvolgende zelfaandachtblokken die informatie-uitwisseling vergemakkelijken tussen multi-view beeldtokens en deze decoderen tot pixelgewijze 3D-Gaussian-primitieven. De voorspelde Gaussian-primitieven zijn geplaatst in een uniform referentiekader, wat zorgt voor hoogwaardige 3D-modellering en directe schatting van cameraparameters met behulp van standaardoplossers. Om zowel objectgerichte als scène-niveau reconstructie te ondersteunen, trainen we twee modelvarianten van FreeSplatter op uitgebreide datasets. In beide scenario's presteert FreeSplatter beter dan state-of-the-art baselines wat betreft reconstructiekwaliteit en nauwkeurigheid van pose-estimatie. Bovendien laten we zien dat FreeSplatter potentie heeft om de productiviteit van downstream-toepassingen, zoals tekst-/beeld-naar-3D-contentcreatie, te verbeteren.

English

Existing sparse-view reconstruction models heavily rely on accurate known camera poses. However, deriving camera extrinsics and intrinsics from sparse-view images presents significant challenges. In this work, we present FreeSplatter, a highly scalable, feed-forward reconstruction framework capable of generating high-quality 3D Gaussians from uncalibrated sparse-view images and recovering their camera parameters in mere seconds. FreeSplatter is built upon a streamlined transformer architecture, comprising sequential self-attention blocks that facilitate information exchange among multi-view image tokens and decode them into pixel-wise 3D Gaussian primitives. The predicted Gaussian primitives are situated in a unified reference frame, allowing for high-fidelity 3D modeling and instant camera parameter estimation using off-the-shelf solvers. To cater to both object-centric and scene-level reconstruction, we train two model variants of FreeSplatter on extensive datasets. In both scenarios, FreeSplatter outperforms state-of-the-art baselines in terms of reconstruction quality and pose estimation accuracy. Furthermore, we showcase FreeSplatter's potential in enhancing the productivity of downstream applications, such as text/image-to-3D content creation.

FreeSplatter: Pose-vrije Gaussisch splatten voor 3D-reconstructie met spaarzame weergave

FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction

Samenvatting

Support