Robustes Dual-Gauß-Splatting für immersive volumetrische Videos mit Fokus auf den Menschen
Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos
September 12, 2024
Autoren: Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Zusammenfassung
Volumetrisches Video stellt einen bahnbrechenden Fortschritt in visuellen Medien dar, der es Benutzern ermöglicht, sich frei durch immersive virtuelle Erlebnisse zu navigieren und die Kluft zwischen digitaler und realer Welt zu verkleinern. Allerdings behindert der Bedarf an umfangreicher manueller Intervention zur Stabilisierung von Mesh-Sequenzen und zur Erzeugung übermäßig großer Assets in bestehenden Workflows eine breitere Akzeptanz. In diesem Paper präsentieren wir einen neuartigen, auf Gauss'scher Basis beruhenden Ansatz namens DualGS für die Echtzeit- und hochwertige Wiedergabe komplexer menschlicher Leistungen mit ausgezeichneten Kompressionsraten. Die Schlüsselidee bei DualGS besteht darin, Bewegung und Erscheinung separat mithilfe der entsprechenden Haut- und Gelenk-Gauss'schen Funktionen zu repräsentieren. Eine solche explizite Entflechtung kann die Bewegungsredundanz signifikant reduzieren und die zeitliche Kohärenz verbessern. Wir beginnen mit der Initialisierung von DualGS und verankern Haut-Gauss'sche Funktionen an Gelenk-Gauss'schen Funktionen im ersten Frame. Anschließend verwenden wir eine Grob-zu-Fein-Trainingsstrategie für die framegenaue Modellierung menschlicher Leistungen. Diese umfasst eine grobe Ausrichtungsphase für die allgemeine Bewegungsvorhersage sowie eine fein abgestimmte Optimierung für robustes Tracking und hochwertiges Rendern. Um volumetrisches Video nahtlos in VR-Umgebungen zu integrieren, komprimieren wir Bewegung effizient mithilfe von Entropie-Codierung und Erscheinungsbild mithilfe von Codec-Kompression in Verbindung mit einem persistenten Codebuch. Unser Ansatz erreicht ein Kompressionsverhältnis von bis zu 120 Mal und erfordert nur etwa 350 KB Speicherplatz pro Frame. Wir zeigen die Wirksamkeit unserer Darstellung durch fotorealistische, frei einsehbare Erlebnisse auf VR-Headsets, die es Benutzern ermöglichen, Musiker bei ihrer Darbietung immersiv zu beobachten und den Rhythmus der Noten an den Fingerspitzen der Künstler zu spüren.
English
Volumetric video represents a transformative advancement in visual media,
enabling users to freely navigate immersive virtual experiences and narrowing
the gap between digital and real worlds. However, the need for extensive manual
intervention to stabilize mesh sequences and the generation of excessively
large assets in existing workflows impedes broader adoption. In this paper, we
present a novel Gaussian-based approach, dubbed DualGS, for real-time
and high-fidelity playback of complex human performance with excellent
compression ratios. Our key idea in DualGS is to separately represent motion
and appearance using the corresponding skin and joint Gaussians. Such an
explicit disentanglement can significantly reduce motion redundancy and enhance
temporal coherence. We begin by initializing the DualGS and anchoring skin
Gaussians to joint Gaussians at the first frame. Subsequently, we employ a
coarse-to-fine training strategy for frame-by-frame human performance modeling.
It includes a coarse alignment phase for overall motion prediction as well as a
fine-grained optimization for robust tracking and high-fidelity rendering. To
integrate volumetric video seamlessly into VR environments, we efficiently
compress motion using entropy encoding and appearance using codec compression
coupled with a persistent codebook. Our approach achieves a compression ratio
of up to 120 times, only requiring approximately 350KB of storage per frame. We
demonstrate the efficacy of our representation through photo-realistic,
free-view experiences on VR headsets, enabling users to immersively watch
musicians in performance and feel the rhythm of the notes at the performers'
fingertips.