AdaGaR: Адаптивное представление Габора для реконструкции динамических сцен
AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction
January 2, 2026
Авторы: Jiewen Chan, Zhenjun Zhao, Yu-Lun Liu
cs.AI
Аннотация
Восстановление динамических 3D-сцен из монокулярных видео требует одновременного захвата высокочастотных деталей внешнего вида и временно непрерывного движения. Существующие методы, использующие примитивы в виде одиночных гауссианов, ограничены их свойством низкочастотной фильтрации, в то время как стандартные функции Габора вносят энергетическую нестабильность. Кроме того, отсутствие ограничений временной непрерывности часто приводит к артефактам движения при интерполяции. Мы предлагаем AdaGaR — унифицированную структуру, решающую проблемы как частотной адаптивности, так и временной непрерывности при явном моделировании динамических сцен. Мы вводим Адаптивное представление Габора, расширяющее гауссианы за счет обучаемых весов частот и адаптивной компенсации энергии для баланса между захватом деталей и стабильностью. Для обеспечения временной непрерывности мы используем Кубические сплайны Эрмита с Регуляризацией Временной Кривизны, чтобы гарантировать плавную эволюцию движения. Адаптивный механизм инициализации, сочетающий оценку глубины, отслеживание точек и маски переднего плана, устанавливает стабильные распределения облаков точек на ранних этапах обучения. Эксперименты на Tap-Vid DAVIS демонстрируют передовую производительность (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) и сильную обобщающую способность в задачах интерполяции кадров, согласованности глубины, редактирования видео и синтеза стереоскопических видов. Страница проекта: https://jiewenchan.github.io/AdaGaR/
English
Reconstructing dynamic 3D scenes from monocular videos requires simultaneously capturing high-frequency appearance details and temporally continuous motion. Existing methods using single Gaussian primitives are limited by their low-pass filtering nature, while standard Gabor functions introduce energy instability. Moreover, lack of temporal continuity constraints often leads to motion artifacts during interpolation. We propose AdaGaR, a unified framework addressing both frequency adaptivity and temporal continuity in explicit dynamic scene modeling. We introduce Adaptive Gabor Representation, extending Gaussians through learnable frequency weights and adaptive energy compensation to balance detail capture and stability. For temporal continuity, we employ Cubic Hermite Splines with Temporal Curvature Regularization to ensure smooth motion evolution. An Adaptive Initialization mechanism combining depth estimation, point tracking, and foreground masks establishes stable point cloud distributions in early training. Experiments on Tap-Vid DAVIS demonstrate state-of-the-art performance (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) and strong generalization across frame interpolation, depth consistency, video editing, and stereo view synthesis. Project page: https://jiewenchan.github.io/AdaGaR/