ChatPaper.aiChatPaper

MoRel: Modelagem de Movimento 4D de Longo Alcance sem Cintilações via Mistura Bidirecional Baseada em Retransmissão de Âncoras com Densificação Hierárquica

MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification

December 10, 2025
Autores: Sangwoon Kwak, Weeyoung Kwon, Jun Young Jeong, Geonho Kim, Won-Sik Cheong, Jihyong Oh
cs.AI

Resumo

Os recentes avanços no 4D Gaussian Splatting (4DGS) estenderam a capacidade de renderização de alta velocidade do 3D Gaussian Splatting (3DGS) para o domínio temporal, permitindo a renderização em tempo real de cenas dinâmicas. No entanto, um dos principais desafios remanescentes reside na modelagem de vídeos dinâmicos de longo alcance que contêm movimento, onde uma extensão ingênua dos métodos existentes leva a uma severa explosão de memória, flickering temporal e falha em lidar com oclusões que aparecem ou desaparecem ao longo do tempo. Para enfrentar esses desafios, propomos uma nova estrutura 4DGS caracterizada por um mecanismo de Mistura Bidirecional baseada em Relé de Âncoras (ARBB), denominada MoRel, que permite a modelagem temporalmente consistente e eficiente em memória de cenas dinâmicas de longo alcance. Nosso método constrói progressivamente espaços âncora canônicos locais no índice de tempo dos quadros-chave e modela as deformações entre quadros no nível da âncora, melhorando a coerência temporal. Ao aprender deformações bidirecionais entre as Âncoras de Quadro-chave (KfA) e misturá-las adaptativamente por meio de um controle de opacidade aprendível, nossa abordagem mitiga descontinuidades temporais e artefatos de flickering. Introduzimos ainda um esquema de Densificação Hierárquica Guiada por Variância de Características (FHD) que efetivamente densifica as KfA mantendo a qualidade de renderização, com base num nível atribuído de variância de características. Para avaliar eficazmente a capacidade do nosso modelo de lidar com movimento 4D de longo alcance do mundo real, compilamos um novo conjunto de dados contendo movimento 4D de longo alcance, denominado SelfCap_{LR}. Este conjunto possui uma magnitude média de movimento dinâmico maior, capturado em espaços espacialmente mais amplos, em comparação com conjuntos de dados de vídeo dinâmicos anteriores. No geral, nosso MoRel alcança uma reconstrução 4D de longo alcance temporalmente coerente e livre de flickering, mantendo um uso de memória limitado, demonstrando tanto escalabilidade quanto eficiência em representações dinâmicas baseadas em Gaussianas.
English
Recent advances in 4D Gaussian Splatting (4DGS) have extended the high-speed rendering capability of 3D Gaussian Splatting (3DGS) into the temporal domain, enabling real-time rendering of dynamic scenes. However, one of the major remaining challenges lies in modeling long-range motion-contained dynamic videos, where a naive extension of existing methods leads to severe memory explosion, temporal flickering, and failure to handle appearing or disappearing occlusions over time. To address these challenges, we propose a novel 4DGS framework characterized by an Anchor Relay-based Bidirectional Blending (ARBB) mechanism, named MoRel, which enables temporally consistent and memory-efficient modeling of long-range dynamic scenes. Our method progressively constructs locally canonical anchor spaces at key-frame time index and models inter-frame deformations at the anchor level, enhancing temporal coherence. By learning bidirectional deformations between KfA and adaptively blending them through learnable opacity control, our approach mitigates temporal discontinuities and flickering artifacts. We further introduce a Feature-variance-guided Hierarchical Densification (FHD) scheme that effectively densifies KfA's while keeping rendering quality, based on an assigned level of feature-variance. To effectively evaluate our model's capability to handle real-world long-range 4D motion, we newly compose long-range 4D motion-contained dataset, called SelfCap_{LR}. It has larger average dynamic motion magnitude, captured at spatially wider spaces, compared to previous dynamic video datasets. Overall, our MoRel achieves temporally coherent and flicker-free long-range 4D reconstruction while maintaining bounded memory usage, demonstrating both scalability and efficiency in dynamic Gaussian-based representations.
PDF52February 27, 2026