Splatter Image: Reconstrução 3D Ultra-Rápida a Partir de uma Única Visão
Splatter Image: Ultra-Fast Single-View 3D Reconstruction
December 20, 2023
Autores: Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi
cs.AI
Resumo
Apresentamos o Splatter Image, uma abordagem ultrarrápida para reconstrução 3D de objetos monoculares que opera a 38 FPS. O Splatter Image é baseado no Gaussian Splatting, que recentemente trouxe renderização em tempo real, treinamento rápido e excelente escalabilidade para reconstrução multivista. Pela primeira vez, aplicamos o Gaussian Splatting em um cenário de reconstrução monocular. Nossa abordagem é baseada em aprendizado e, no momento do teste, a reconstrução requer apenas a avaliação direta de uma rede neural. A principal inovação do Splatter Image é o design surpreendentemente simples: ele utiliza uma rede de imagem para imagem 2D para mapear a imagem de entrada para um Gaussiano 3D por pixel. Os Gaussianos resultantes assumem, portanto, a forma de uma imagem, o Splatter Image. Estendemos ainda o método para incorporar mais de uma imagem como entrada, o que fazemos adicionando atenção entre vistas. Graças à velocidade do renderizador (588 FPS), podemos usar uma única GPU para treinamento enquanto geramos imagens completas a cada iteração, a fim de otimizar métricas perceptuais como o LPIPS. Em benchmarks padrão, demonstramos não apenas reconstrução rápida, mas também resultados melhores do que baselines recentes e muito mais caros em termos de PSNR, LPIPS e outras métricas.
English
We introduce the Splatter Image, an ultra-fast approach for monocular 3D
object reconstruction which operates at 38 FPS. Splatter Image is based on
Gaussian Splatting, which has recently brought real-time rendering, fast
training, and excellent scaling to multi-view reconstruction. For the first
time, we apply Gaussian Splatting in a monocular reconstruction setting. Our
approach is learning-based, and, at test time, reconstruction only requires the
feed-forward evaluation of a neural network. The main innovation of Splatter
Image is the surprisingly straightforward design: it uses a 2D image-to-image
network to map the input image to one 3D Gaussian per pixel. The resulting
Gaussians thus have the form of an image, the Splatter Image. We further extend
the method to incorporate more than one image as input, which we do by adding
cross-view attention. Owning to the speed of the renderer (588 FPS), we can use
a single GPU for training while generating entire images at each iteration in
order to optimize perceptual metrics like LPIPS. On standard benchmarks, we
demonstrate not only fast reconstruction but also better results than recent
and much more expensive baselines in terms of PSNR, LPIPS, and other metrics.