스플래터 이미지: 초고속 단일 뷰 3D 재구성
Splatter Image: Ultra-Fast Single-View 3D Reconstruction
December 20, 2023
저자: Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi
cs.AI
초록
우리는 단일 영상 3D 객체 복원을 38 FPS로 수행할 수 있는 초고속 접근법인 Splatter Image를 소개한다. Splatter Image는 최근 다중 뷰 복원에서 실시간 렌더링, 빠른 학습, 우수한 확장성을 제공한 Gaussian Splatting을 기반으로 한다. 우리는 Gaussian Splatting을 단일 영상 복원 설정에 처음으로 적용했다. 우리의 접근법은 학습 기반이며, 테스트 시 복원은 신경망의 순전파 평가만을 필요로 한다. Splatter Image의 주요 혁신은 놀라울 정도로 직관적인 설계에 있다: 이 방법은 2D 이미지-투-이미지 네트워크를 사용하여 입력 이미지를 픽셀당 하나의 3D 가우시안으로 매핑한다. 결과적으로 생성된 가우시안들은 이미지 형태, 즉 Splatter Image를 갖게 된다. 우리는 이 방법을 더 많은 이미지를 입력으로 통합할 수 있도록 확장했으며, 이를 위해 교차 뷰 어텐션을 추가했다. 렌더러의 속도(588 FPS) 덕분에, 우리는 단일 GPU를 사용하여 학습을 진행하면서 각 반복마다 전체 이미지를 생성하여 LPIPS와 같은 지각 메트릭을 최적화할 수 있다. 표준 벤치마크에서 우리는 빠른 복원 속도뿐만 아니라 PSNR, LPIPS 및 기타 메트릭 측면에서 최근의 훨씬 더 비용이 많이 드는 베이스라인보다 더 나은 결과를 보여준다.
English
We introduce the Splatter Image, an ultra-fast approach for monocular 3D
object reconstruction which operates at 38 FPS. Splatter Image is based on
Gaussian Splatting, which has recently brought real-time rendering, fast
training, and excellent scaling to multi-view reconstruction. For the first
time, we apply Gaussian Splatting in a monocular reconstruction setting. Our
approach is learning-based, and, at test time, reconstruction only requires the
feed-forward evaluation of a neural network. The main innovation of Splatter
Image is the surprisingly straightforward design: it uses a 2D image-to-image
network to map the input image to one 3D Gaussian per pixel. The resulting
Gaussians thus have the form of an image, the Splatter Image. We further extend
the method to incorporate more than one image as input, which we do by adding
cross-view attention. Owning to the speed of the renderer (588 FPS), we can use
a single GPU for training while generating entire images at each iteration in
order to optimize perceptual metrics like LPIPS. On standard benchmarks, we
demonstrate not only fast reconstruction but also better results than recent
and much more expensive baselines in terms of PSNR, LPIPS, and other metrics.