RGB-Alleen Gesuperviseerde Camera Parameter Optimalisatie in Dynamische Scènes

Samenvatting

Hoewel COLMAP lange tijd de overheersende methode is gebleven voor het optimaliseren van cameraparameters in statische scènes, wordt het beperkt door de lange uitvoeringstijd en de afhankelijkheid van grondwaarheid (GT) bewegingsmaskers voor toepassing op dynamische scènes. Veel inspanningen hebben geprobeerd het te verbeteren door meer aannames als supervisie te integreren, zoals GT brandpuntsafstand, bewegingsmaskers, 3D-puntenwolken, cameraposities en metrische diepte, die echter meestal niet beschikbaar zijn in casual vastgelegde RGB-video's. In dit artikel stellen we een nieuwe methode voor voor nauwkeurigere en efficiëntere optimalisatie van cameraparameters in dynamische scènes, uitsluitend gesuperviseerd door een enkele RGB-video. Onze methode bestaat uit drie belangrijke componenten: (1) Patch-wise Tracking Filters, om robuuste en maximaal schaarse scharnierachtige relaties over de RGB-video te vestigen. (2) Outlier-aware Joint Optimization, voor efficiënte optimalisatie van cameraparameters door adaptieve down-weighting van bewegende uitschieters, zonder afhankelijkheid van bewegingsaannames. (3) Een tweestaps optimalisatiestrategie, om stabiliteit en optimalisatiesnelheid te verbeteren door een afweging tussen de Softplus-limieten en convexe minima in verliezen. We evalueren onze cameraberekeningen visueel en numeriek. Om de nauwkeurigheid verder te valideren, voeren we de cameraberekeningen in een 4D-reconstructiemethode en beoordelen de resulterende 3D-scènes, en gerenderde 2D RGB- en dieptekaarten. We voeren experimenten uit op 4 real-world datasets (NeRF-DS, DAVIS, iPhone en TUM-dynamics) en 1 synthetische dataset (MPI-Sintel), waaruit blijkt dat onze methode cameraparameters efficiënter en nauwkeuriger schat met een enkele RGB-video als enige supervisie.

English

Although COLMAP has long remained the predominant method for camera parameter optimization in static scenes, it is constrained by its lengthy runtime and reliance on ground truth (GT) motion masks for application to dynamic scenes. Many efforts attempted to improve it by incorporating more priors as supervision such as GT focal length, motion masks, 3D point clouds, camera poses, and metric depth, which, however, are typically unavailable in casually captured RGB videos. In this paper, we propose a novel method for more accurate and efficient camera parameter optimization in dynamic scenes solely supervised by a single RGB video. Our method consists of three key components: (1) Patch-wise Tracking Filters, to establish robust and maximally sparse hinge-like relations across the RGB video. (2) Outlier-aware Joint Optimization, for efficient camera parameter optimization by adaptive down-weighting of moving outliers, without reliance on motion priors. (3) A Two-stage Optimization Strategy, to enhance stability and optimization speed by a trade-off between the Softplus limits and convex minima in losses. We visually and numerically evaluate our camera estimates. To further validate accuracy, we feed the camera estimates into a 4D reconstruction method and assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics) and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates camera parameters more efficiently and accurately with a single RGB video as the only supervision.

RGB-Alleen Gesuperviseerde Camera Parameter Optimalisatie in Dynamische Scènes

RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

Samenvatting

Support