Надежное двойное гауссово наложение для объемных видео с участием человека.
Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos
September 12, 2024
Авторы: Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Аннотация
Объемное видео представляет собой трансформационное достижение в визуальных медиа, позволяющее пользователям свободно перемещаться в иммерсивных виртуальных пространствах и сокращая разрыв между цифровым и реальным мирами. Однако необходимость обширного ручного вмешательства для стабилизации последовательностей сеток и создание излишне крупных активов в существующих рабочих процессах затрудняет более широкое принятие. В данной статье мы представляем новый подход на основе гауссовских функций, названный DualGS, для воспроизведения сложных человеческих выступлений в реальном времени с отличными коэффициентами сжатия и высокой степенью достоверности. Основная идея в DualGS заключается в отдельном представлении движения и внешнего вида с использованием соответствующих кожных и суставных гауссовских функций. Такое явное разделение может значительно сократить избыточность движения и улучшить временную согласованность. Мы начинаем с инициализации DualGS и привязки кожных гауссов к суставным гауссовым функциям на первом кадре. Далее мы используем стратегию грубой настройки для поэтапного моделирования человеческого выступления кадр за кадром. Она включает фазу грубой выравнивания для общего прогнозирования движения, а также тонкую оптимизацию для надежного отслеживания и высококачественного визуализирования. Для интеграции объемного видео без нарывов в среды виртуальной реальности мы эффективно сжимаем движение с использованием кодирования энтропии и внешний вид с помощью кодирования кодека в сочетании с постоянным кодовым книгой. Наш подход достигает коэффициента сжатия до 120 раз, требуя всего примерно 350 КБ хранилища на кадр. Мы демонстрируем эффективность нашего представления через фотореалистичные, свободные просмотры на VR-очках, позволяя пользователям погружаться в просмотр выступлений музыкантов и чувствовать ритм нот на кончиках пальцев исполнителей.
English
Volumetric video represents a transformative advancement in visual media,
enabling users to freely navigate immersive virtual experiences and narrowing
the gap between digital and real worlds. However, the need for extensive manual
intervention to stabilize mesh sequences and the generation of excessively
large assets in existing workflows impedes broader adoption. In this paper, we
present a novel Gaussian-based approach, dubbed DualGS, for real-time
and high-fidelity playback of complex human performance with excellent
compression ratios. Our key idea in DualGS is to separately represent motion
and appearance using the corresponding skin and joint Gaussians. Such an
explicit disentanglement can significantly reduce motion redundancy and enhance
temporal coherence. We begin by initializing the DualGS and anchoring skin
Gaussians to joint Gaussians at the first frame. Subsequently, we employ a
coarse-to-fine training strategy for frame-by-frame human performance modeling.
It includes a coarse alignment phase for overall motion prediction as well as a
fine-grained optimization for robust tracking and high-fidelity rendering. To
integrate volumetric video seamlessly into VR environments, we efficiently
compress motion using entropy encoding and appearance using codec compression
coupled with a persistent codebook. Our approach achieves a compression ratio
of up to 120 times, only requiring approximately 350KB of storage per frame. We
demonstrate the efficacy of our representation through photo-realistic,
free-view experiences on VR headsets, enabling users to immersively watch
musicians in performance and feel the rhythm of the notes at the performers'
fingertips.Summary
AI-Generated Summary