Ottimizzazione dei Parametri della Fotocamera con Supervisione Solo RGB in Scene Dinamiche
RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
September 18, 2025
Autori: Fang Li, Hao Zhang, Narendra Ahuja
cs.AI
Abstract
Sebbene COLMAP sia rimasto a lungo il metodo predominante per l'ottimizzazione dei parametri della fotocamera in scene statiche, è limitato dal suo tempo di esecuzione prolungato e dalla dipendenza da maschere di movimento di verità fondamentale (GT) per l'applicazione a scene dinamiche. Molti sforzi hanno tentato di migliorarlo incorporando ulteriori informazioni a priori come supervisione, quali la lunghezza focale GT, maschere di movimento, nuvole di punti 3D, pose della fotocamera e profondità metrica, che tuttavia sono tipicamente non disponibili in video RGB acquisiti casualmente. In questo articolo, proponiamo un nuovo metodo per un'ottimizzazione più accurata ed efficiente dei parametri della fotocamera in scene dinamiche supervisionata esclusivamente da un singolo video RGB. Il nostro metodo è composto da tre componenti chiave: (1) Filtri di tracciamento a patch, per stabilire relazioni robuste e massimamente sparse simili a cerniere lungo il video RGB. (2) Ottimizzazione congiunta consapevole degli outlier, per un'ottimizzazione efficiente dei parametri della fotocamera mediante la ponderazione adattiva degli outlier in movimento, senza fare affidamento su informazioni a priori sul movimento. (3) Una strategia di ottimizzazione in due fasi, per migliorare la stabilità e la velocità di ottimizzazione attraverso un compromesso tra i limiti Softplus e i minimi convessi nelle funzioni di perdita. Valutiamo visivamente e numericamente le nostre stime della fotocamera. Per ulteriormente validare l'accuratezza, alimentiamo le stime della fotocamera in un metodo di ricostruzione 4D e valutiamo le scene 3D risultanti, nonché le mappe RGB e di profondità renderizzate in 2D. Eseguiamo esperimenti su 4 dataset del mondo reale (NeRF-DS, DAVIS, iPhone e TUM-dynamics) e 1 dataset sintetico (MPI-Sintel), dimostrando che il nostro metodo stima i parametri della fotocamera in modo più efficiente e accurato con un singolo video RGB come unica supervisione.
English
Although COLMAP has long remained the predominant method for camera parameter
optimization in static scenes, it is constrained by its lengthy runtime and
reliance on ground truth (GT) motion masks for application to dynamic scenes.
Many efforts attempted to improve it by incorporating more priors as
supervision such as GT focal length, motion masks, 3D point clouds, camera
poses, and metric depth, which, however, are typically unavailable in casually
captured RGB videos. In this paper, we propose a novel method for more accurate
and efficient camera parameter optimization in dynamic scenes solely supervised
by a single RGB video. Our method consists of three key components: (1)
Patch-wise Tracking Filters, to establish robust and maximally sparse
hinge-like relations across the RGB video. (2) Outlier-aware Joint
Optimization, for efficient camera parameter optimization by adaptive
down-weighting of moving outliers, without reliance on motion priors. (3) A
Two-stage Optimization Strategy, to enhance stability and optimization speed by
a trade-off between the Softplus limits and convex minima in losses. We
visually and numerically evaluate our camera estimates. To further validate
accuracy, we feed the camera estimates into a 4D reconstruction method and
assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform
experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics)
and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates
camera parameters more efficiently and accurately with a single RGB video as
the only supervision.