ChatPaper.aiChatPaper

MoRel: Modellazione del Movimento 4D a Lungo Raggio e senza Sfarfallio tramite Fusione Bidirezionale basata su Anchor Relay con Densificazione Gerarchica

MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification

December 10, 2025
Autori: Sangwoon Kwak, Weeyoung Kwon, Jun Young Jeong, Geonho Kim, Won-Sik Cheong, Jihyong Oh
cs.AI

Abstract

I recenti progressi nel 4D Gaussian Splatting (4DGS) hanno esteso la capacità di rendering ad alta velocità del 3D Gaussian Splatting (3DGS) al dominio temporale, consentendo il rendering in tempo reale di scene dinamiche. Tuttavia, una delle principali sfide rimanenti risiede nella modellazione di video dinamici a lungo raggio contenenti movimento, dove una semplice estensione dei metodi esistenti porta a una grave esplosione della memoria, a uno sfarfallio temporale e all'incapacità di gestire le occlusioni che appaiono o scompaiono nel tempo. Per affrontare queste sfide, proponiamo una nuova struttura 4DGS caratterizzata da un meccanismo di Fusione Bidirezionale basato su Anchor Relay (ARBB), denominata MoRel, che consente una modellazione temporalmente coerente ed efficiente in termini di memoria di scene dinamiche a lungo raggio. Il nostro metodo costruisce progressivamente spazi canonici locali di ancoraggio (KfA) all'indice temporale dei fotogrammi chiave e modella le deformazioni inter-fotogramma a livello di ancoraggio, migliorando la coerenza temporale. Apprendendo deformazioni bidirezionali tra i KfA e fondendole in modo adattivo attraverso un controllo dell'opacità apprendibile, il nostro approccio mitiga le discontinuità temporali e gli artefatti di sfarfallio. Introduciamo inoltre uno schema di Densificazione Gerarchica guidata dalla Varianza delle Caratteristiche (FHD) che densifica efficacemente i KfA mantenendo la qualità del rendering, basandosi su un livello assegnato di varianza delle caratteristiche. Per valutare efficacemente la capacità del nostro modello di gestire il movimento 4D a lungo raggio nel mondo reale, abbiamo composto un nuovo dataset contenente movimento 4D a lungo raggio, chiamato SelfCap_{LR}. Rispetto ai precedenti dataset video dinamici, esso presenta una magnitudine media del moto dinamico più ampia, catturata in spazi spazialmente più estesi. Nel complesso, il nostro MoRel ottiene una ricostruzione 4D a lungo raggio temporalmente coerente e priva di sfarfallio, mantenendo un utilizzo della memoria limitato, dimostrando sia scalabilità che efficienza nelle rappresentazioni dinamiche basate su Gaussian.
English
Recent advances in 4D Gaussian Splatting (4DGS) have extended the high-speed rendering capability of 3D Gaussian Splatting (3DGS) into the temporal domain, enabling real-time rendering of dynamic scenes. However, one of the major remaining challenges lies in modeling long-range motion-contained dynamic videos, where a naive extension of existing methods leads to severe memory explosion, temporal flickering, and failure to handle appearing or disappearing occlusions over time. To address these challenges, we propose a novel 4DGS framework characterized by an Anchor Relay-based Bidirectional Blending (ARBB) mechanism, named MoRel, which enables temporally consistent and memory-efficient modeling of long-range dynamic scenes. Our method progressively constructs locally canonical anchor spaces at key-frame time index and models inter-frame deformations at the anchor level, enhancing temporal coherence. By learning bidirectional deformations between KfA and adaptively blending them through learnable opacity control, our approach mitigates temporal discontinuities and flickering artifacts. We further introduce a Feature-variance-guided Hierarchical Densification (FHD) scheme that effectively densifies KfA's while keeping rendering quality, based on an assigned level of feature-variance. To effectively evaluate our model's capability to handle real-world long-range 4D motion, we newly compose long-range 4D motion-contained dataset, called SelfCap_{LR}. It has larger average dynamic motion magnitude, captured at spatially wider spaces, compared to previous dynamic video datasets. Overall, our MoRel achieves temporally coherent and flicker-free long-range 4D reconstruction while maintaining bounded memory usage, demonstrating both scalability and efficiency in dynamic Gaussian-based representations.
PDF31December 13, 2025