ChatPaper.aiChatPaper

MoRel: 계층적 밀집화를 통한 앵커 릴레이 기반 양방향 블렌딩으로 구현한 장거리 플리커 현상 없는 4D 모션 모델링

MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification

December 10, 2025
저자: Sangwoon Kwak, Weeyoung Kwon, Jun Young Jeong, Geonho Kim, Won-Sik Cheong, Jihyong Oh
cs.AI

초록

4D 가우시안 스플래팅(4DGS)의 최근 발전은 3D 가우시안 스플래팅(3DGS)의 고속 렌더링 능력을 시간 영역으로 확장하여 동적 장면의 실시간 렌더링을 가능하게 했습니다. 그러나 여전히 남아 있는 주요 과제 중 하나는 장기간(long-range) 모션을 포함한 동적 비디오를 모델링하는 데 있으며, 기존 방법을 단순히 확장할 경우 심각한 메모리 폭증, 시간적 깜빡임, 그리고 시간에 따른 출현 또는 소실 occlusion 처리 실패로 이어집니다. 이러한 문제들을 해결하기 위해, 우리는 Anchor Relay 기반 양방향 혼합(ARBB) 메커니즘을 특징으로 하는 새로운 4DGS 프레임워크인 MoRel을 제안합니다. 이는 장기간 동적 장면의 시간적 일관성과 메모리 효율적인 모델링을 가능하게 합니다. 우리의 방법은 키 프레임 시간 인덱스에서 지역적 표준(canonical) 앵커 공간을 점진적으로 구축하고 앵커 수준에서 프레임 간 변형을 모델링하여 시간적 일관성을 향상시킵니다. KfA 간의 양방향 변형을 학습하고 학습 가능한 불투명도 제어를 통해 이를 적응적으로 혼합함으로써, 우리의 접근 방식은 시간적 불연속성과 깜빡임 아티팩트를 완화합니다. 우리는 또한 특징 분산(FV)에 기반하여 렌더링 품질을 유지하면서 KfA를 효과적으로 조밀화(densify)하는 특징-분산-가이드 계층적 조밀화(FHD) 기법을 추가로 도입합니다. 실제 세계의 장기간 4D 모션 처리 능력을 효과적으로 평가하기 위해, 우리는 SelfCap_{LR}라는 장기간 4D 모션 포함 데이터셋을 새롭게 구성했습니다. 이 데이터셋은 기존 동적 비디오 데이터셋에 비해 더 큰 평균 동적 모션 크기와 공간적으로 더 넓은 영역에서 캡처되었습니다. 전반적으로, 우리의 MoRel은 제한된 메모리 사용량을 유지하면서 시간적으로 일관되고 깜빡임이 없는 장기간 4D 재구성을 달성하여, 동적 가우시안 기반 표현에서 확장성과 효율성을 모두 입증합니다.
English
Recent advances in 4D Gaussian Splatting (4DGS) have extended the high-speed rendering capability of 3D Gaussian Splatting (3DGS) into the temporal domain, enabling real-time rendering of dynamic scenes. However, one of the major remaining challenges lies in modeling long-range motion-contained dynamic videos, where a naive extension of existing methods leads to severe memory explosion, temporal flickering, and failure to handle appearing or disappearing occlusions over time. To address these challenges, we propose a novel 4DGS framework characterized by an Anchor Relay-based Bidirectional Blending (ARBB) mechanism, named MoRel, which enables temporally consistent and memory-efficient modeling of long-range dynamic scenes. Our method progressively constructs locally canonical anchor spaces at key-frame time index and models inter-frame deformations at the anchor level, enhancing temporal coherence. By learning bidirectional deformations between KfA and adaptively blending them through learnable opacity control, our approach mitigates temporal discontinuities and flickering artifacts. We further introduce a Feature-variance-guided Hierarchical Densification (FHD) scheme that effectively densifies KfA's while keeping rendering quality, based on an assigned level of feature-variance. To effectively evaluate our model's capability to handle real-world long-range 4D motion, we newly compose long-range 4D motion-contained dataset, called SelfCap_{LR}. It has larger average dynamic motion magnitude, captured at spatially wider spaces, compared to previous dynamic video datasets. Overall, our MoRel achieves temporally coherent and flicker-free long-range 4D reconstruction while maintaining bounded memory usage, demonstrating both scalability and efficiency in dynamic Gaussian-based representations.
PDF31December 13, 2025