Splatter Image: Сверхбыстрое 3D-восстановление по одному изображению
Splatter Image: Ultra-Fast Single-View 3D Reconstruction
December 20, 2023
Авторы: Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi
cs.AI
Аннотация
Мы представляем Splatter Image — сверхбыстрый подход для монокулярной реконструкции 3D-объектов, работающий со скоростью 38 кадров в секунду. Splatter Image основан на методе Gaussian Splatting, который недавно обеспечил реализацию рендеринга в реальном времени, быстрого обучения и отличной масштабируемости для многовидовой реконструкции. Впервые мы применяем Gaussian Splatting в условиях монокулярной реконструкции. Наш подход основан на обучении, и на этапе тестирования реконструкция требует только прямого прохода через нейронную сеть. Основное новшество Splatter Image заключается в удивительно простой архитектуре: используется 2D сеть для преобразования изображения в изображение, которая отображает входное изображение в один 3D-гауссовский распределение на каждый пиксель. Полученные гауссовские распределения имеют форму изображения — Splatter Image. Мы также расширяем метод для работы с несколькими входными изображениями, добавляя механизм кросс-видового внимания. Благодаря скорости рендеринга (588 кадров в секунду), мы можем использовать один GPU для обучения, генерируя целые изображения на каждой итерации, чтобы оптимизировать перцептивные метрики, такие как LPIPS. На стандартных бенчмарках мы демонстрируем не только быструю реконструкцию, но и лучшие результаты по сравнению с недавними и гораздо более затратными базовыми методами с точки зрения PSNR, LPIPS и других метрик.
English
We introduce the Splatter Image, an ultra-fast approach for monocular 3D
object reconstruction which operates at 38 FPS. Splatter Image is based on
Gaussian Splatting, which has recently brought real-time rendering, fast
training, and excellent scaling to multi-view reconstruction. For the first
time, we apply Gaussian Splatting in a monocular reconstruction setting. Our
approach is learning-based, and, at test time, reconstruction only requires the
feed-forward evaluation of a neural network. The main innovation of Splatter
Image is the surprisingly straightforward design: it uses a 2D image-to-image
network to map the input image to one 3D Gaussian per pixel. The resulting
Gaussians thus have the form of an image, the Splatter Image. We further extend
the method to incorporate more than one image as input, which we do by adding
cross-view attention. Owning to the speed of the renderer (588 FPS), we can use
a single GPU for training while generating entire images at each iteration in
order to optimize perceptual metrics like LPIPS. On standard benchmarks, we
demonstrate not only fast reconstruction but also better results than recent
and much more expensive baselines in terms of PSNR, LPIPS, and other metrics.