ChatPaper.aiChatPaper

Splatter Image: Ultra-schnelle 3D-Rekonstruktion aus Einzelansicht

Splatter Image: Ultra-Fast Single-View 3D Reconstruction

December 20, 2023
Autoren: Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi
cs.AI

Zusammenfassung

Wir stellen das Splatter Image vor, einen ultraschnellen Ansatz für die monokulare 3D-Objektrekonstruktion, der mit 38 Bildern pro Sekunde (FPS) arbeitet. Das Splatter Image basiert auf Gaussian Splatting, das kürzlich Echtzeit-Rendering, schnelles Training und hervorragende Skalierbarkeit für die Multi-View-Rekonstruktion ermöglicht hat. Zum ersten Mal wenden wir Gaussian Splatting in einem monokularen Rekonstruktionsszenario an. Unser Ansatz ist lernbasiert, und zur Testzeit erfordert die Rekonstruktion lediglich die Vorwärtsauswertung eines neuronalen Netzwerks. Die Hauptinnovation des Splatter Image liegt in seinem überraschend einfachen Design: Es verwendet ein 2D-Bild-zu-Bild-Netzwerk, um das Eingabebild auf einen 3D-Gauß pro Pixel abzubilden. Die resultierenden Gaußverteilungen haben somit die Form eines Bildes, des Splatter Image. Wir erweitern die Methode weiter, um mehr als ein Bild als Eingabe zu berücksichtigen, was wir durch die Hinzufügung von Cross-View-Attention erreichen. Dank der Geschwindigkeit des Renderers (588 FPS) können wir ein einzelnes GPU für das Training verwenden, während wir in jeder Iteration vollständige Bilder erzeugen, um wahrnehmungsbasierte Metriken wie LPIPS zu optimieren. Auf Standard-Benchmarks zeigen wir nicht nur eine schnelle Rekonstruktion, sondern auch bessere Ergebnisse als neuere und wesentlich rechenintensivere Baselines in Bezug auf PSNR, LPIPS und andere Metriken.
English
We introduce the Splatter Image, an ultra-fast approach for monocular 3D object reconstruction which operates at 38 FPS. Splatter Image is based on Gaussian Splatting, which has recently brought real-time rendering, fast training, and excellent scaling to multi-view reconstruction. For the first time, we apply Gaussian Splatting in a monocular reconstruction setting. Our approach is learning-based, and, at test time, reconstruction only requires the feed-forward evaluation of a neural network. The main innovation of Splatter Image is the surprisingly straightforward design: it uses a 2D image-to-image network to map the input image to one 3D Gaussian per pixel. The resulting Gaussians thus have the form of an image, the Splatter Image. We further extend the method to incorporate more than one image as input, which we do by adding cross-view attention. Owning to the speed of the renderer (588 FPS), we can use a single GPU for training while generating entire images at each iteration in order to optimize perceptual metrics like LPIPS. On standard benchmarks, we demonstrate not only fast reconstruction but also better results than recent and much more expensive baselines in terms of PSNR, LPIPS, and other metrics.
PDF160December 15, 2024