Splatter Image: Reconstrucción 3D Ultra-Rápida de Vista Única
Splatter Image: Ultra-Fast Single-View 3D Reconstruction
December 20, 2023
Autores: Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi
cs.AI
Resumen
Presentamos la Splatter Image, un enfoque ultrarrápido para la reconstrucción 3D monocular de objetos que opera a 38 FPS. Splatter Image se basa en Gaussian Splatting, que recientemente ha aportado renderizado en tiempo real, entrenamiento rápido y una excelente escalabilidad a la reconstrucción multivista. Por primera vez, aplicamos Gaussian Splatting en un escenario de reconstrucción monocular. Nuestro enfoque está basado en aprendizaje y, en el momento de la prueba, la reconstrucción solo requiere la evaluación directa de una red neuronal. La principal innovación de Splatter Image es su diseño sorprendentemente sencillo: utiliza una red de imagen a imagen en 2D para mapear la imagen de entrada a un Gaussiano 3D por píxel. Los Gaussianos resultantes tienen así la forma de una imagen, la Splatter Image. Además, extendemos el método para incorporar más de una imagen como entrada, lo que logramos añadiendo atención entre vistas. Gracias a la velocidad del renderizador (588 FPS), podemos utilizar una sola GPU para el entrenamiento mientras generamos imágenes completas en cada iteración con el fin de optimizar métricas perceptuales como LPIPS. En benchmarks estándar, demostramos no solo una reconstrucción rápida, sino también mejores resultados que líneas base recientes y mucho más costosas en términos de PSNR, LPIPS y otras métricas.
English
We introduce the Splatter Image, an ultra-fast approach for monocular 3D
object reconstruction which operates at 38 FPS. Splatter Image is based on
Gaussian Splatting, which has recently brought real-time rendering, fast
training, and excellent scaling to multi-view reconstruction. For the first
time, we apply Gaussian Splatting in a monocular reconstruction setting. Our
approach is learning-based, and, at test time, reconstruction only requires the
feed-forward evaluation of a neural network. The main innovation of Splatter
Image is the surprisingly straightforward design: it uses a 2D image-to-image
network to map the input image to one 3D Gaussian per pixel. The resulting
Gaussians thus have the form of an image, the Splatter Image. We further extend
the method to incorporate more than one image as input, which we do by adding
cross-view attention. Owning to the speed of the renderer (588 FPS), we can use
a single GPU for training while generating entire images at each iteration in
order to optimize perceptual metrics like LPIPS. On standard benchmarks, we
demonstrate not only fast reconstruction but also better results than recent
and much more expensive baselines in terms of PSNR, LPIPS, and other metrics.