MoRel: Modelado de Movimiento 4D de Largo Alcance sin Parpadeo mediante Mezcla Bidireccional Basada en Relevo de Anclas con Densificación Jerárquica
MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification
December 10, 2025
Autores: Sangwoon Kwak, Weeyoung Kwon, Jun Young Jeong, Geonho Kim, Won-Sik Cheong, Jihyong Oh
cs.AI
Resumen
Los recientes avances en el Proyección Gaussiana 4D (4DGS) han extendido la capacidad de renderizado de alta velocidad de la Proyección Gaussiana 3D (3DGS) al dominio temporal, permitiendo la representación en tiempo real de escenas dinámicas. Sin embargo, uno de los principales desafíos pendientes reside en el modelado de videos dinámicos de largo alcance que contienen movimiento, donde una extensión ingenua de los métodos existentes conduce a una severa explosión de memoria, parpadeo temporal y fallos al manejar oclusiones que aparecen o desaparecen con el tiempo. Para abordar estos desafíos, proponemos un novedoso marco de trabajo 4DGS caracterizado por un mecanismo de Mezcla Bidireccional basado en Relevos de Anclajes (ARBB), denominado MoRel, que permite un modelado temporalmente consistente y eficiente en memoria de escenas dinámicas de largo alcance. Nuestro método construye progresivamente espacios canónicos locales de anclaje en el índice de tiempo de los fotogramas clave y modela las deformaciones entre fotogramas a nivel de anclaje, mejorando la coherencia temporal. Al aprender deformaciones bidireccionales entre los Anclajes de Fotograma Clave (KfA) y mezclándolas de forma adaptativa mediante un control de opacidad entrenable, nuestro enfoque mitiga las discontinuidades temporales y los artefactos de parpadeo. Además, introducimos un esquema de Densificación Jerárquica Guiada por Varianza de Características (FHD) que densifica eficazmente los KfA manteniendo la calidad de renderizado, basándose en un nivel asignado de varianza de características. Para evaluar eficazmente la capacidad de nuestro modelo para manejar movimiento 4D de largo alcance del mundo real, hemos compilado un nuevo conjunto de datos que contiene movimiento 4D de largo alcance, llamado SelfCap_{LR}. Este conjunto de datos presenta una magnitud promedio de movimiento dinámico mayor y está capturado en espacios espacialmente más amplios en comparación con conjuntos de datos de video dinámicos anteriores. En general, nuestro MoRel logra una reconstrucción 4D de largo alcance temporalmente coherente y libre de parpadeos, manteniendo un uso de memoria acotado, lo que demuestra tanto escalabilidad como eficiencia en las representaciones dinámicas basadas en Gaussianas.
English
Recent advances in 4D Gaussian Splatting (4DGS) have extended the high-speed rendering capability of 3D Gaussian Splatting (3DGS) into the temporal domain, enabling real-time rendering of dynamic scenes. However, one of the major remaining challenges lies in modeling long-range motion-contained dynamic videos, where a naive extension of existing methods leads to severe memory explosion, temporal flickering, and failure to handle appearing or disappearing occlusions over time. To address these challenges, we propose a novel 4DGS framework characterized by an Anchor Relay-based Bidirectional Blending (ARBB) mechanism, named MoRel, which enables temporally consistent and memory-efficient modeling of long-range dynamic scenes. Our method progressively constructs locally canonical anchor spaces at key-frame time index and models inter-frame deformations at the anchor level, enhancing temporal coherence. By learning bidirectional deformations between KfA and adaptively blending them through learnable opacity control, our approach mitigates temporal discontinuities and flickering artifacts. We further introduce a Feature-variance-guided Hierarchical Densification (FHD) scheme that effectively densifies KfA's while keeping rendering quality, based on an assigned level of feature-variance. To effectively evaluate our model's capability to handle real-world long-range 4D motion, we newly compose long-range 4D motion-contained dataset, called SelfCap_{LR}. It has larger average dynamic motion magnitude, captured at spatially wider spaces, compared to previous dynamic video datasets. Overall, our MoRel achieves temporally coherent and flicker-free long-range 4D reconstruction while maintaining bounded memory usage, demonstrating both scalability and efficiency in dynamic Gaussian-based representations.