MoRel : Modélisation de mouvement 4D sans scintillement à longue portée via un mélange bidirectionnel à relais d'ancrage avec densification hiérarchique
MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification
December 10, 2025
papers.authors: Sangwoon Kwak, Weeyoung Kwon, Jun Young Jeong, Geonho Kim, Won-Sik Cheong, Jihyong Oh
cs.AI
papers.abstract
Les récentes avancées en projection gaussienne 4D (4DGS) ont étendu la capacité de rendu haute vitesse de la projection gaussienne 3D (3DGS) au domaine temporel, permettant le rendu en temps réel de scènes dynamiques. Cependant, l'un des principaux défis réside dans la modélisation de vidéos dynamiques contenant des mouvements de longue durée, où une extension naïve des méthodes existantes entraîne une explosion mémoire sévère, un scintillement temporel et une incapacité à gérer les occlusions apparaissant ou disparaissant dans le temps. Pour relever ces défis, nous proposons un nouveau cadre 4DGS caractérisé par un mécanisme de fusion bidirectionnelle à relais d'ancre (ARBB), nommé MoRel, qui permet une modélisation cohérente dans le temps et économe en mémoire des scènes dynamiques de longue durée. Notre méthode construit progressivement des espaces d'ancrage canoniques locaux aux indices temporels des images-clés et modélise les déformations inter-images au niveau de l'ancre, améliorant la cohérence temporelle. En apprenant les déformations bidirectionnelles entre les images-clés d'ancrage (KfA) et en les fusionnant de manière adaptative via un contrôle d'opacité apprenable, notre approche atténue les discontinuités temporelles et les artefacts de scintillement. Nous introduisons en outre un schéma de densification hiérarchique guidée par la variance des caractéristiques (FHD) qui densifie efficacement les KfA tout en préservant la qualité du rendu, basé sur un niveau attribué de variance des caractéristiques. Pour évaluer efficacement la capacité de notre modèle à gérer des mouvements 4D de longue durée en conditions réelles, nous avons constitué un nouveau jeu de données contenant des mouvements 4D de longue portée, appelé SelfCap_{LR}. Il présente une magnitude moyenne de mouvement dynamique plus importante, capturée dans des espaces spatialement plus étendus, comparé aux précédents jeux de données vidéo dynamiques. Globalement, notre MoRel réalise une reconstruction 4D de longue durée cohérente dans le temps et sans scintillement tout en maintenant une utilisation mémoire bornée, démontrant à la fois l'évolutivité et l'efficacité des représentations dynamiques basées sur les gaussiennes.
English
Recent advances in 4D Gaussian Splatting (4DGS) have extended the high-speed rendering capability of 3D Gaussian Splatting (3DGS) into the temporal domain, enabling real-time rendering of dynamic scenes. However, one of the major remaining challenges lies in modeling long-range motion-contained dynamic videos, where a naive extension of existing methods leads to severe memory explosion, temporal flickering, and failure to handle appearing or disappearing occlusions over time. To address these challenges, we propose a novel 4DGS framework characterized by an Anchor Relay-based Bidirectional Blending (ARBB) mechanism, named MoRel, which enables temporally consistent and memory-efficient modeling of long-range dynamic scenes. Our method progressively constructs locally canonical anchor spaces at key-frame time index and models inter-frame deformations at the anchor level, enhancing temporal coherence. By learning bidirectional deformations between KfA and adaptively blending them through learnable opacity control, our approach mitigates temporal discontinuities and flickering artifacts. We further introduce a Feature-variance-guided Hierarchical Densification (FHD) scheme that effectively densifies KfA's while keeping rendering quality, based on an assigned level of feature-variance. To effectively evaluate our model's capability to handle real-world long-range 4D motion, we newly compose long-range 4D motion-contained dataset, called SelfCap_{LR}. It has larger average dynamic motion magnitude, captured at spatially wider spaces, compared to previous dynamic video datasets. Overall, our MoRel achieves temporally coherent and flicker-free long-range 4D reconstruction while maintaining bounded memory usage, demonstrating both scalability and efficiency in dynamic Gaussian-based representations.