Robuust Dual Gaussian Splatting voor meeslepende mensgerichte volumetrische video's.
Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos
September 12, 2024
Auteurs: Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Samenvatting
Volumetrische video vertegenwoordigt een transformerende vooruitgang in visuele media, waardoor gebruikers vrij kunnen navigeren door meeslepende virtuele ervaringen en de kloof tussen digitale en echte werelden verkleinen. Echter, de noodzaak van uitgebreide handmatige interventie om mesh-sequenties te stabiliseren en de generatie van overdreven grote assets in bestaande workflows belemmert een bredere adoptie. In dit artikel presenteren we een nieuw op Gauss gebaseerde benadering, genaamd DualGS, voor real-time en hoogwaardige weergave van complex menselijk optreden met uitstekende compressieverhoudingen. Ons belangrijkste idee in DualGS is om beweging en uiterlijk afzonderlijk voor te stellen met behulp van de overeenkomstige huid- en gewrichtsgaussianen. Een dergelijke expliciete ontvlechting kan de bewegingsredundantie aanzienlijk verminderen en de temporele coherentie verbeteren. We beginnen door DualGS te initialiseren en huid-Gaussianen te verankeren aan gewrichts-Gaussianen bij het eerste frame. Vervolgens passen we een grof-naar-fijne trainingsstrategie toe voor frame-voor-frame modellering van menselijk optreden. Dit omvat een grove uitlijnfase voor algemene bewegingsvoorspelling en een fijnmazige optimalisatie voor robuuste tracking en hoogwaardige rendering. Om volumetrische video naadloos te integreren in VR-omgevingen, comprimeren we beweging efficiënt met entropie-encoding en uiterlijk met codec-compressie in combinatie met een persistent codeboek. Onze benadering bereikt een compressieverhouding tot 120 keer, waarbij slechts ongeveer 350KB opslag per frame nodig is. We tonen de doeltreffendheid van onze representatie aan door fotorealistische, vrij te bekijken ervaringen op VR-headsets, waardoor gebruikers op meeslepende wijze muzikanten in optredens kunnen bekijken en het ritme van de noten aan de vingertoppen van de artiesten kunnen voelen.
English
Volumetric video represents a transformative advancement in visual media,
enabling users to freely navigate immersive virtual experiences and narrowing
the gap between digital and real worlds. However, the need for extensive manual
intervention to stabilize mesh sequences and the generation of excessively
large assets in existing workflows impedes broader adoption. In this paper, we
present a novel Gaussian-based approach, dubbed DualGS, for real-time
and high-fidelity playback of complex human performance with excellent
compression ratios. Our key idea in DualGS is to separately represent motion
and appearance using the corresponding skin and joint Gaussians. Such an
explicit disentanglement can significantly reduce motion redundancy and enhance
temporal coherence. We begin by initializing the DualGS and anchoring skin
Gaussians to joint Gaussians at the first frame. Subsequently, we employ a
coarse-to-fine training strategy for frame-by-frame human performance modeling.
It includes a coarse alignment phase for overall motion prediction as well as a
fine-grained optimization for robust tracking and high-fidelity rendering. To
integrate volumetric video seamlessly into VR environments, we efficiently
compress motion using entropy encoding and appearance using codec compression
coupled with a persistent codebook. Our approach achieves a compression ratio
of up to 120 times, only requiring approximately 350KB of storage per frame. We
demonstrate the efficacy of our representation through photo-realistic,
free-view experiences on VR headsets, enabling users to immersively watch
musicians in performance and feel the rhythm of the notes at the performers'
fingertips.Summary
AI-Generated Summary