ChatPaper.aiChatPaper

Splatter Image : Reconstruction 3D ultra-rapide à partir d'une seule vue

Splatter Image: Ultra-Fast Single-View 3D Reconstruction

December 20, 2023
Auteurs: Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi
cs.AI

Résumé

Nous présentons la Splatter Image, une approche ultra-rapide pour la reconstruction 3D d'objets à partir d'une seule vue, fonctionnant à 38 images par seconde (FPS). La Splatter Image s'appuie sur le Gaussian Splatting, une technique qui a récemment permis le rendu en temps réel, un apprentissage rapide et une excellente scalabilité pour la reconstruction multi-vues. Pour la première fois, nous appliquons le Gaussian Splatting dans un contexte de reconstruction monoscopique. Notre approche est basée sur l'apprentissage et, au moment du test, la reconstruction ne nécessite que l'évaluation en avant d'un réseau neuronal. L'innovation principale de la Splatter Image réside dans sa conception étonnamment simple : elle utilise un réseau image-à-image 2D pour mapper l'image d'entrée à une Gaussienne 3D par pixel. Les Gaussiennes résultantes prennent ainsi la forme d'une image, la Splatter Image. Nous étendons également la méthode pour incorporer plusieurs images en entrée, en ajoutant un mécanisme d'attention inter-vues. Grâce à la vitesse du moteur de rendu (588 FPS), nous pouvons utiliser un seul GPU pour l'entraînement tout en générant des images complètes à chaque itération afin d'optimiser des métriques perceptuelles comme le LPIPS. Sur des benchmarks standards, nous démontrons non seulement une reconstruction rapide, mais aussi de meilleurs résultats que des approches récentes et bien plus coûteuses en termes de PSNR, LPIPS et d'autres métriques.
English
We introduce the Splatter Image, an ultra-fast approach for monocular 3D object reconstruction which operates at 38 FPS. Splatter Image is based on Gaussian Splatting, which has recently brought real-time rendering, fast training, and excellent scaling to multi-view reconstruction. For the first time, we apply Gaussian Splatting in a monocular reconstruction setting. Our approach is learning-based, and, at test time, reconstruction only requires the feed-forward evaluation of a neural network. The main innovation of Splatter Image is the surprisingly straightforward design: it uses a 2D image-to-image network to map the input image to one 3D Gaussian per pixel. The resulting Gaussians thus have the form of an image, the Splatter Image. We further extend the method to incorporate more than one image as input, which we do by adding cross-view attention. Owning to the speed of the renderer (588 FPS), we can use a single GPU for training while generating entire images at each iteration in order to optimize perceptual metrics like LPIPS. On standard benchmarks, we demonstrate not only fast reconstruction but also better results than recent and much more expensive baselines in terms of PSNR, LPIPS, and other metrics.
PDF160December 15, 2024