Splatter Image: Ultraznelle Enkelbeeld 3D-reconstructie
Splatter Image: Ultra-Fast Single-View 3D Reconstruction
December 20, 2023
Auteurs: Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi
cs.AI
Samenvatting
We introduceren de Splatter Image, een ultrazwelle aanpak voor monoculaire 3D-objectreconstructie die opereert met 38 FPS. Splatter Image is gebaseerd op Gaussian Splatting, dat recentelijk real-time rendering, snelle training en uitstekende schaalbaarheid heeft gebracht naar multi-view reconstructie. Voor het eerst passen we Gaussian Splatting toe in een monoculaire reconstructie-instelling. Onze aanpak is leer-gebaseerd, en tijdens de testfase vereist reconstructie alleen de feed-forward evaluatie van een neuraal netwerk. De belangrijkste innovatie van Splatter Image is het verrassend eenvoudige ontwerp: het gebruikt een 2D image-to-image netwerk om de invoerafbeelding te mappen naar één 3D Gaussiaan per pixel. De resulterende Gaussiaanse verdelingen hebben dus de vorm van een afbeelding, de Splatter Image. We breiden de methode verder uit om meer dan één afbeelding als invoer te incorporeren, wat we doen door cross-view aandacht toe te voegen. Dankzij de snelheid van de renderer (588 FPS) kunnen we een enkele GPU gebruiken voor training terwijl we volledige afbeeldingen genereren bij elke iteratie om perceptuele metrieken zoals LPIPS te optimaliseren. Op standaard benchmarks demonstreren we niet alleen snelle reconstructie, maar ook betere resultaten dan recente en veel duurdere baselines in termen van PSNR, LPIPS en andere metrieken.
English
We introduce the Splatter Image, an ultra-fast approach for monocular 3D
object reconstruction which operates at 38 FPS. Splatter Image is based on
Gaussian Splatting, which has recently brought real-time rendering, fast
training, and excellent scaling to multi-view reconstruction. For the first
time, we apply Gaussian Splatting in a monocular reconstruction setting. Our
approach is learning-based, and, at test time, reconstruction only requires the
feed-forward evaluation of a neural network. The main innovation of Splatter
Image is the surprisingly straightforward design: it uses a 2D image-to-image
network to map the input image to one 3D Gaussian per pixel. The resulting
Gaussians thus have the form of an image, the Splatter Image. We further extend
the method to incorporate more than one image as input, which we do by adding
cross-view attention. Owning to the speed of the renderer (588 FPS), we can use
a single GPU for training while generating entire images at each iteration in
order to optimize perceptual metrics like LPIPS. On standard benchmarks, we
demonstrate not only fast reconstruction but also better results than recent
and much more expensive baselines in terms of PSNR, LPIPS, and other metrics.