AdaGaR: Rappresentazione Gabor Adattiva per la Ricostruzione di Scene Dinamiche

Abstract

La ricostruzione di scene 3D dinamiche a partire da video monoculari richiede la capacità di catturare simultaneamente dettagli d'aspetto ad alta frequenza e un movimento temporalmente continuo. I metodi esistenti che utilizzano primitive gaussiane singole sono limitati dalla loro natura di filtri passa-basso, mentre le funzioni di Gabor standard introducono instabilità energetica. Inoltre, la mancanza di vincoli di continuità temporale porta spesso ad artefatti di movimento durante l'interpolazione. Proponiamo AdaGaR, un framework unificato che affronta sia l'adattività in frequenza che la continuità temporale nella modellazione esplicita di scene dinamiche. Introduciamo la Rappresentazione di Gabor Adattativa, che estende le Gaussiane mediante pesi di frequenza apprendibili e una compensazione energetica adattativa per bilanciare la cattura dei dettagli e la stabilità. Per la continuità temporale, impieghiamo Spline Cubiche di Hermite con Regolarizzazione della Curvatura Temporale per garantire un'evoluzione del movimento fluida. Un meccanismo di Inizializzazione Adattativa che combina stima della profondità, tracking di punti e maschere del primo piano stabilisce distribuzioni iniziali stabili della nuvola di punti durante le prime fasi di training. Gli esperimenti su Tap-Vid DAVIS dimostrano prestazioni allo stato dell'arte (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) e una forte generalizzazione in compiti come interpolazione di frame, consistenza della profondità, editing video e sintesi di viste stereo. Pagina del progetto: https://jiewenchan.github.io/AdaGaR/

English

Reconstructing dynamic 3D scenes from monocular videos requires simultaneously capturing high-frequency appearance details and temporally continuous motion. Existing methods using single Gaussian primitives are limited by their low-pass filtering nature, while standard Gabor functions introduce energy instability. Moreover, lack of temporal continuity constraints often leads to motion artifacts during interpolation. We propose AdaGaR, a unified framework addressing both frequency adaptivity and temporal continuity in explicit dynamic scene modeling. We introduce Adaptive Gabor Representation, extending Gaussians through learnable frequency weights and adaptive energy compensation to balance detail capture and stability. For temporal continuity, we employ Cubic Hermite Splines with Temporal Curvature Regularization to ensure smooth motion evolution. An Adaptive Initialization mechanism combining depth estimation, point tracking, and foreground masks establishes stable point cloud distributions in early training. Experiments on Tap-Vid DAVIS demonstrate state-of-the-art performance (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) and strong generalization across frame interpolation, depth consistency, video editing, and stereo view synthesis. Project page: https://jiewenchan.github.io/AdaGaR/

AdaGaR: Rappresentazione Gabor Adattiva per la Ricostruzione di Scene Dinamiche

AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction

Abstract

Support