AdaGaR: Representação Gabor Adaptativa para Reconstrução de Cenas Dinâmicas

Resumo

A reconstrução de cenas 3D dinâmicas a partir de vídeos monoculares requer a captura simultânea de detalhes de aparência de alta frequência e movimento temporalmente contínuo. Os métodos existentes que utilizam primitivas Gaussianas únicas são limitados pela sua natureza de filtragem passa-baixa, enquanto as funções Gabor padrão introduzem instabilidade energética. Além disso, a falta de restrições de continuidade temporal frequentemente leva a artefatos de movimento durante a interpolação. Propomos o AdaGaR, uma estrutura unificada que aborda tanto a adaptabilidade de frequência quanto a continuidade temporal na modelagem explícita de cenas dinâmicas. Introduzimos a Representação Gabor Adaptativa, que estende as Gaussianas por meio de pesos de frequência aprendíveis e compensação energética adaptativa para equilibrar a captura de detalhes e a estabilidade. Para a continuidade temporal, empregamos *Cubic Hermite Splines* com Regularização de Curvatura Temporal para garantir uma evolução suave do movimento. Um mecanismo de Inicialização Adaptativa que combina estimativa de profundidade, rastreamento de pontos e máscaras de primeiro plano estabelece distribuições estáveis de nuvens de pontos no início do treinamento. Experimentos no Tap-Vid DAVIS demonstram desempenho de última geração (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) e forte generalização em interpolação de quadros, consistência de profundidade, edição de vídeo e síntese de visão estéreo. Página do projeto: https://jiewenchan.github.io/AdaGaR/

English

Reconstructing dynamic 3D scenes from monocular videos requires simultaneously capturing high-frequency appearance details and temporally continuous motion. Existing methods using single Gaussian primitives are limited by their low-pass filtering nature, while standard Gabor functions introduce energy instability. Moreover, lack of temporal continuity constraints often leads to motion artifacts during interpolation. We propose AdaGaR, a unified framework addressing both frequency adaptivity and temporal continuity in explicit dynamic scene modeling. We introduce Adaptive Gabor Representation, extending Gaussians through learnable frequency weights and adaptive energy compensation to balance detail capture and stability. For temporal continuity, we employ Cubic Hermite Splines with Temporal Curvature Regularization to ensure smooth motion evolution. An Adaptive Initialization mechanism combining depth estimation, point tracking, and foreground masks establishes stable point cloud distributions in early training. Experiments on Tap-Vid DAVIS demonstrate state-of-the-art performance (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) and strong generalization across frame interpolation, depth consistency, video editing, and stereo view synthesis. Project page: https://jiewenchan.github.io/AdaGaR/

AdaGaR: Representação Gabor Adaptativa para Reconstrução de Cenas Dinâmicas

AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction

Resumo

Support