RGB-Alleen Gesuperviseerde Camera Parameter Optimalisatie in Dynamische Scènes
RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
September 18, 2025
Auteurs: Fang Li, Hao Zhang, Narendra Ahuja
cs.AI
Samenvatting
Hoewel COLMAP lange tijd de overheersende methode is gebleven voor het optimaliseren van cameraparameters in statische scènes, wordt het beperkt door de lange uitvoeringstijd en de afhankelijkheid van grondwaarheid (GT) bewegingsmaskers voor toepassing op dynamische scènes. Veel inspanningen hebben geprobeerd het te verbeteren door meer aannames als supervisie te integreren, zoals GT brandpuntsafstand, bewegingsmaskers, 3D-puntenwolken, cameraposities en metrische diepte, die echter meestal niet beschikbaar zijn in casual vastgelegde RGB-video's. In dit artikel stellen we een nieuwe methode voor voor nauwkeurigere en efficiëntere optimalisatie van cameraparameters in dynamische scènes, uitsluitend gesuperviseerd door een enkele RGB-video. Onze methode bestaat uit drie belangrijke componenten: (1) Patch-wise Tracking Filters, om robuuste en maximaal schaarse scharnierachtige relaties over de RGB-video te vestigen. (2) Outlier-aware Joint Optimization, voor efficiënte optimalisatie van cameraparameters door adaptieve down-weighting van bewegende uitschieters, zonder afhankelijkheid van bewegingsaannames. (3) Een tweestaps optimalisatiestrategie, om stabiliteit en optimalisatiesnelheid te verbeteren door een afweging tussen de Softplus-limieten en convexe minima in verliezen. We evalueren onze cameraberekeningen visueel en numeriek. Om de nauwkeurigheid verder te valideren, voeren we de cameraberekeningen in een 4D-reconstructiemethode en beoordelen de resulterende 3D-scènes, en gerenderde 2D RGB- en dieptekaarten. We voeren experimenten uit op 4 real-world datasets (NeRF-DS, DAVIS, iPhone en TUM-dynamics) en 1 synthetische dataset (MPI-Sintel), waaruit blijkt dat onze methode cameraparameters efficiënter en nauwkeuriger schat met een enkele RGB-video als enige supervisie.
English
Although COLMAP has long remained the predominant method for camera parameter
optimization in static scenes, it is constrained by its lengthy runtime and
reliance on ground truth (GT) motion masks for application to dynamic scenes.
Many efforts attempted to improve it by incorporating more priors as
supervision such as GT focal length, motion masks, 3D point clouds, camera
poses, and metric depth, which, however, are typically unavailable in casually
captured RGB videos. In this paper, we propose a novel method for more accurate
and efficient camera parameter optimization in dynamic scenes solely supervised
by a single RGB video. Our method consists of three key components: (1)
Patch-wise Tracking Filters, to establish robust and maximally sparse
hinge-like relations across the RGB video. (2) Outlier-aware Joint
Optimization, for efficient camera parameter optimization by adaptive
down-weighting of moving outliers, without reliance on motion priors. (3) A
Two-stage Optimization Strategy, to enhance stability and optimization speed by
a trade-off between the Softplus limits and convex minima in losses. We
visually and numerically evaluate our camera estimates. To further validate
accuracy, we feed the camera estimates into a 4D reconstruction method and
assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform
experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics)
and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates
camera parameters more efficiently and accurately with a single RGB video as
the only supervision.