MoRel: Langstrecken-Flimmerfreie 4D-Bewegungsmodellierung durch Anker-Relais-basierte bidirektionale Verschmelzung mit hierarchischer Verdichtung
MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification
December 10, 2025
papers.authors: Sangwoon Kwak, Weeyoung Kwon, Jun Young Jeong, Geonho Kim, Won-Sik Cheong, Jihyong Oh
cs.AI
papers.abstract
Jüngste Fortschritte bei 4D Gaussian Splatting (4DGS) haben die hochgeschwindigkeitsfähige Rendering-Technik des 3D Gaussian Splatting (3DGS) in den zeitlichen Bereich erweitert und ermöglichen so die Echtzeitdarstellung dynamischer Szenen. Eine der größten verbleibenden Herausforderungen besteht jedoch in der Modellierung langreichweitiger, bewegungshaltiger dynamischer Videos, bei denen eine naive Erweiterung bestehender Methoden zu schwerwiegendem Speicherverbrauch, zeitlichem Flackern und dem Scheitern bei der Handhabung sich im Zeitverlauf öffnender oder schließender Verdeckungen führt. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges 4DGS-Framework vor, das durch einen Anchor-Relay-basierten bidirektionalen Blending-Mechanismus (ARBB) charakterisiert ist, genannt MoRel, welcher eine zeitlich konsistente und speichereffiziente Modellierung langreichweitiger dynamischer Szenen ermöglicht. Unsere Methode konstruiert schrittweise lokale kanonische Ankerräume (Anchor Spaces) zu Schlüsselbild-Zeitindizes und modelliert Zwischenbild-Verformungen auf Anker-Ebene, was die zeitliche Kohärenz verbessert. Durch das Erlernen bidirektionaler Verformungen zwischen den Schlüsselbild-Ankern (KfA) und deren adaptive Verschmelzung mittels lernbarer Deckkraftsteuerung mildert unser Ansatz zeitliche Diskontinuitäten und Flackereffekte. Wir führen weiterhin ein varianzgeführtes hierarchisches Verdichtungsschema (Feature-variance-guided Hierarchical Densification, FHD) ein, das die KfA effektiv verdichtet und dabei die Renderqualität aufrechterhält, basierend auf einem zugewiesenen Grad an Merkmalsvarianz. Um die Fähigkeit unseres Modells zur Verarbeitung realer langreichweitiger 4D-Bewegungen effektiv zu bewerten, stellen wir neu einen langreichweitigen 4D-Bewegungs-Datensatz zusammen, genannt SelfCap_{LR}. Dieser weist eine größere durchschnittliche dynamische Bewegungsmagnitude auf und wurde in räumlich weiter gefassten Umgebungen aufgenommen als bisherige dynamische Videodatensätze. Insgesamt erreicht unser MoRel eine zeitlich kohärente und flackerfreie langreichweitige 4D-Rekonstruktion bei gleichzeitig begrenztem Speicherverbrauch und demonstriert so sowohl Skalierbarkeit als auch Effizienz in dynamischen Gaussian-basierten Darstellungen.
English
Recent advances in 4D Gaussian Splatting (4DGS) have extended the high-speed rendering capability of 3D Gaussian Splatting (3DGS) into the temporal domain, enabling real-time rendering of dynamic scenes. However, one of the major remaining challenges lies in modeling long-range motion-contained dynamic videos, where a naive extension of existing methods leads to severe memory explosion, temporal flickering, and failure to handle appearing or disappearing occlusions over time. To address these challenges, we propose a novel 4DGS framework characterized by an Anchor Relay-based Bidirectional Blending (ARBB) mechanism, named MoRel, which enables temporally consistent and memory-efficient modeling of long-range dynamic scenes. Our method progressively constructs locally canonical anchor spaces at key-frame time index and models inter-frame deformations at the anchor level, enhancing temporal coherence. By learning bidirectional deformations between KfA and adaptively blending them through learnable opacity control, our approach mitigates temporal discontinuities and flickering artifacts. We further introduce a Feature-variance-guided Hierarchical Densification (FHD) scheme that effectively densifies KfA's while keeping rendering quality, based on an assigned level of feature-variance. To effectively evaluate our model's capability to handle real-world long-range 4D motion, we newly compose long-range 4D motion-contained dataset, called SelfCap_{LR}. It has larger average dynamic motion magnitude, captured at spatially wider spaces, compared to previous dynamic video datasets. Overall, our MoRel achieves temporally coherent and flicker-free long-range 4D reconstruction while maintaining bounded memory usage, demonstrating both scalability and efficiency in dynamic Gaussian-based representations.