GPS-Gaussian: Обобщаемое построение 3D-гауссовых сплайнов на уровне пикселей для синтеза новых ракурсов человека в реальном времени
GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis
December 4, 2023
Авторы: Shunyuan Zheng, Boyao Zhou, Ruizhi Shao, Boning Liu, Shengping Zhang, Liqiang Nie, Yebin Liu
cs.AI
Аннотация
Мы представляем новый подход, названный GPS-Gaussian, для синтеза новых ракурсов персонажа в режиме реального времени. Предложенный метод позволяет осуществлять рендеринг с разрешением 2K в условиях скудного набора камер. В отличие от оригинального метода Gaussian Splatting или нейронных методов неявного рендеринга, которые требуют оптимизации для каждого объекта, мы вводим карты параметров Гаусса, определенные на исходных видах, и напрямую регрессируем свойства Gaussian Splatting для мгновенного синтеза новых ракурсов без необходимости тонкой настройки или оптимизации. Для этого мы обучаем наш модуль регрессии параметров Гаусса на большом объеме данных сканирования людей, совместно с модулем оценки глубины для преобразования 2D-карт параметров в 3D-пространство. Предложенная структура является полностью дифференцируемой, и эксперименты на нескольких наборах данных демонстрируют, что наш метод превосходит современные подходы, достигая при этом исключительной скорости рендеринга.
English
We present a new approach, termed GPS-Gaussian, for synthesizing novel views
of a character in a real-time manner. The proposed method enables 2K-resolution
rendering under a sparse-view camera setting. Unlike the original Gaussian
Splatting or neural implicit rendering methods that necessitate per-subject
optimizations, we introduce Gaussian parameter maps defined on the source views
and regress directly Gaussian Splatting properties for instant novel view
synthesis without any fine-tuning or optimization. To this end, we train our
Gaussian parameter regression module on a large amount of human scan data,
jointly with a depth estimation module to lift 2D parameter maps to 3D space.
The proposed framework is fully differentiable and experiments on several
datasets demonstrate that our method outperforms state-of-the-art methods while
achieving an exceeding rendering speed.