Optimisation des paramètres de caméra supervisée uniquement par RGB dans des scènes dynamiques

papers.abstract

Bien que COLMAP soit longtemps resté la méthode prédominante pour l'optimisation des paramètres de caméra dans des scènes statiques, il est limité par son temps d'exécution prolongé et sa dépendance aux masques de mouvement de référence (GT) pour son application à des scènes dynamiques. De nombreux efforts ont tenté de l'améliorer en intégrant davantage de connaissances a priori comme supervision, telles que la distance focale GT, les masques de mouvement, les nuages de points 3D, les poses de caméra et la profondeur métrique, qui sont cependant généralement indisponibles dans les vidéos RGB capturées de manière occasionnelle. Dans cet article, nous proposons une nouvelle méthode pour une optimisation plus précise et efficace des paramètres de caméra dans des scènes dynamiques, uniquement supervisée par une seule vidéo RGB. Notre méthode se compose de trois éléments clés : (1) des filtres de suivi par patchs, pour établir des relations robustes et maximalement clairsemées de type charnière à travers la vidéo RGB ; (2) une optimisation conjointe prenant en compte les valeurs aberrantes, pour une optimisation efficace des paramètres de caméra en pondérant de manière adaptative les valeurs aberrantes en mouvement, sans dépendre de connaissances a priori sur le mouvement ; (3) une stratégie d'optimisation en deux étapes, pour améliorer la stabilité et la vitesse d'optimisation grâce à un compromis entre les limites Softplus et les minima convexes dans les fonctions de perte. Nous évaluons visuellement et numériquement nos estimations de caméra. Pour valider davantage la précision, nous intégrons les estimations de caméra dans une méthode de reconstruction 4D et évaluons les scènes 3D résultantes, ainsi que les cartes RGB et de profondeur rendues en 2D. Nous réalisons des expériences sur 4 ensembles de données du monde réel (NeRF-DS, DAVIS, iPhone et TUM-dynamics) et 1 ensemble de données synthétique (MPI-Sintel), démontrant que notre méthode estime les paramètres de caméra de manière plus efficace et précise avec une seule vidéo RGB comme unique supervision.

English

Although COLMAP has long remained the predominant method for camera parameter optimization in static scenes, it is constrained by its lengthy runtime and reliance on ground truth (GT) motion masks for application to dynamic scenes. Many efforts attempted to improve it by incorporating more priors as supervision such as GT focal length, motion masks, 3D point clouds, camera poses, and metric depth, which, however, are typically unavailable in casually captured RGB videos. In this paper, we propose a novel method for more accurate and efficient camera parameter optimization in dynamic scenes solely supervised by a single RGB video. Our method consists of three key components: (1) Patch-wise Tracking Filters, to establish robust and maximally sparse hinge-like relations across the RGB video. (2) Outlier-aware Joint Optimization, for efficient camera parameter optimization by adaptive down-weighting of moving outliers, without reliance on motion priors. (3) A Two-stage Optimization Strategy, to enhance stability and optimization speed by a trade-off between the Softplus limits and convex minima in losses. We visually and numerically evaluate our camera estimates. To further validate accuracy, we feed the camera estimates into a 4D reconstruction method and assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics) and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates camera parameters more efficiently and accurately with a single RGB video as the only supervision.

Optimisation des paramètres de caméra supervisée uniquement par RGB dans des scènes dynamiques

RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

papers.abstract

Support