Optimisation des paramètres de caméra supervisée uniquement par RGB dans des scènes dynamiques
RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
September 18, 2025
papers.authors: Fang Li, Hao Zhang, Narendra Ahuja
cs.AI
papers.abstract
Bien que COLMAP soit longtemps resté la méthode prédominante pour l'optimisation des paramètres de caméra dans des scènes statiques, il est limité par son temps d'exécution prolongé et sa dépendance aux masques de mouvement de référence (GT) pour son application à des scènes dynamiques. De nombreux efforts ont tenté de l'améliorer en intégrant davantage de connaissances a priori comme supervision, telles que la distance focale GT, les masques de mouvement, les nuages de points 3D, les poses de caméra et la profondeur métrique, qui sont cependant généralement indisponibles dans les vidéos RGB capturées de manière occasionnelle. Dans cet article, nous proposons une nouvelle méthode pour une optimisation plus précise et efficace des paramètres de caméra dans des scènes dynamiques, uniquement supervisée par une seule vidéo RGB. Notre méthode se compose de trois éléments clés : (1) des filtres de suivi par patchs, pour établir des relations robustes et maximalement clairsemées de type charnière à travers la vidéo RGB ; (2) une optimisation conjointe prenant en compte les valeurs aberrantes, pour une optimisation efficace des paramètres de caméra en pondérant de manière adaptative les valeurs aberrantes en mouvement, sans dépendre de connaissances a priori sur le mouvement ; (3) une stratégie d'optimisation en deux étapes, pour améliorer la stabilité et la vitesse d'optimisation grâce à un compromis entre les limites Softplus et les minima convexes dans les fonctions de perte. Nous évaluons visuellement et numériquement nos estimations de caméra. Pour valider davantage la précision, nous intégrons les estimations de caméra dans une méthode de reconstruction 4D et évaluons les scènes 3D résultantes, ainsi que les cartes RGB et de profondeur rendues en 2D. Nous réalisons des expériences sur 4 ensembles de données du monde réel (NeRF-DS, DAVIS, iPhone et TUM-dynamics) et 1 ensemble de données synthétique (MPI-Sintel), démontrant que notre méthode estime les paramètres de caméra de manière plus efficace et précise avec une seule vidéo RGB comme unique supervision.
English
Although COLMAP has long remained the predominant method for camera parameter
optimization in static scenes, it is constrained by its lengthy runtime and
reliance on ground truth (GT) motion masks for application to dynamic scenes.
Many efforts attempted to improve it by incorporating more priors as
supervision such as GT focal length, motion masks, 3D point clouds, camera
poses, and metric depth, which, however, are typically unavailable in casually
captured RGB videos. In this paper, we propose a novel method for more accurate
and efficient camera parameter optimization in dynamic scenes solely supervised
by a single RGB video. Our method consists of three key components: (1)
Patch-wise Tracking Filters, to establish robust and maximally sparse
hinge-like relations across the RGB video. (2) Outlier-aware Joint
Optimization, for efficient camera parameter optimization by adaptive
down-weighting of moving outliers, without reliance on motion priors. (3) A
Two-stage Optimization Strategy, to enhance stability and optimization speed by
a trade-off between the Softplus limits and convex minima in losses. We
visually and numerically evaluate our camera estimates. To further validate
accuracy, we feed the camera estimates into a 4D reconstruction method and
assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform
experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics)
and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates
camera parameters more efficiently and accurately with a single RGB video as
the only supervision.