AdaGaR: Representación Gabor Adaptativa para la Reconstrucción de Escenas Dinámicas
AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction
January 2, 2026
Autores: Jiewen Chan, Zhenjun Zhao, Yu-Lun Liu
cs.AI
Resumen
La reconstrucción de escenas 3D dinámicas a partir de vídeos monoculares requiere capturar simultáneamente detalles de apariencia de alta frecuencia y movimiento temporalmente continuo. Los métodos existentes que utilizan primitivas gaussianas únicas están limitados por su naturaleza de filtrado pasa-bajo, mientras que las funciones Gabor estándar introducen inestabilidad energética. Además, la falta de restricciones de continuidad temporal suele provocar artefactos de movimiento durante la interpolación. Proponemos AdaGaR, un marco unificado que aborda tanto la adaptabilidad en frecuencia como la continuidad temporal en el modelado explícito de escenas dinámicas. Introducimos la Representación Gabor Adaptativa, que extiende las Gaussianas mediante pesos de frecuencia aprendibles y compensación energética adaptable para equilibrar la captura de detalles y la estabilidad. Para la continuidad temporal, empleamos Splines Cúbicos de Hermite con Regularización de Curvatura Temporal para garantizar una evolución suave del movimiento. Un mecanismo de Inicialización Adaptativa que combina estimación de profundidad, seguimiento de puntos y máscaras de primer plano establece distribuciones estables de nubes de puntos en las primeras fases del entrenamiento. Los experimentos en Tap-Vid DAVIS demuestran un rendimiento de vanguardia (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) y una fuerte generalización en interpolación de fotogramas, consistencia de profundidad, edición de vídeo y síntesis de vistas estéreo. Página del proyecto: https://jiewenchan.github.io/AdaGaR/
English
Reconstructing dynamic 3D scenes from monocular videos requires simultaneously capturing high-frequency appearance details and temporally continuous motion. Existing methods using single Gaussian primitives are limited by their low-pass filtering nature, while standard Gabor functions introduce energy instability. Moreover, lack of temporal continuity constraints often leads to motion artifacts during interpolation. We propose AdaGaR, a unified framework addressing both frequency adaptivity and temporal continuity in explicit dynamic scene modeling. We introduce Adaptive Gabor Representation, extending Gaussians through learnable frequency weights and adaptive energy compensation to balance detail capture and stability. For temporal continuity, we employ Cubic Hermite Splines with Temporal Curvature Regularization to ensure smooth motion evolution. An Adaptive Initialization mechanism combining depth estimation, point tracking, and foreground masks establishes stable point cloud distributions in early training. Experiments on Tap-Vid DAVIS demonstrate state-of-the-art performance (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) and strong generalization across frame interpolation, depth consistency, video editing, and stereo view synthesis. Project page: https://jiewenchan.github.io/AdaGaR/