RGB-exklusive optimierte Kameraparameter in dynamischen Szenen

papers.abstract

Obwohl COLMAP lange Zeit die vorherrschende Methode für die Optimierung von Kameraparametern in statischen Szenen geblieben ist, wird es durch seine lange Laufzeit und die Abhängigkeit von Ground-Truth (GT)-Bewegungsmasken für die Anwendung auf dynamische Szenen eingeschränkt. Viele Bemühungen haben versucht, es durch die Einbeziehung weiterer Prioritäten als Supervision zu verbessern, wie z. B. GT-Brennweite, Bewegungsmasken, 3D-Punktwolken, Kameraposen und metrische Tiefe, die jedoch in zufällig aufgenommenen RGB-Videos typischerweise nicht verfügbar sind. In diesem Artikel schlagen wir eine neuartige Methode für eine genauere und effizientere Optimierung von Kameraparametern in dynamischen Szenen vor, die ausschließlich durch ein einzelnes RGB-Video supervidiert wird. Unsere Methode besteht aus drei Schlüsselkomponenten: (1) Patchweise Tracking-Filter, um robuste und maximal spärliche Scharnier-ähnliche Beziehungen über das RGB-Video hinweg herzustellen. (2) Outlier-aware Joint Optimization, für eine effiziente Optimierung von Kameraparametern durch adaptive Gewichtung von beweglichen Ausreißern, ohne Abhängigkeit von Bewegungs-Prioritäten. (3) Eine zweistufige Optimierungsstrategie, um die Stabilität und Optimierungsgeschwindigkeit durch einen Kompromiss zwischen den Softplus-Grenzen und konvexen Minima in den Verlusten zu verbessern. Wir bewerten unsere Kameraschätzungen visuell und numerisch. Um die Genauigkeit weiter zu validieren, speisen wir die Kameraschätzungen in eine 4D-Rekonstruktionsmethode ein und bewerten die resultierenden 3D-Szenen sowie die gerenderten 2D-RGB- und Tiefenkarten. Wir führen Experimente auf 4 realen Datensätzen (NeRF-DS, DAVIS, iPhone und TUM-dynamics) und 1 synthetischen Datensatz (MPI-Sintel) durch und zeigen, dass unsere Methode Kameraparameter effizienter und genauer mit einem einzelnen RGB-Video als einziger Supervision schätzt.

English

Although COLMAP has long remained the predominant method for camera parameter optimization in static scenes, it is constrained by its lengthy runtime and reliance on ground truth (GT) motion masks for application to dynamic scenes. Many efforts attempted to improve it by incorporating more priors as supervision such as GT focal length, motion masks, 3D point clouds, camera poses, and metric depth, which, however, are typically unavailable in casually captured RGB videos. In this paper, we propose a novel method for more accurate and efficient camera parameter optimization in dynamic scenes solely supervised by a single RGB video. Our method consists of three key components: (1) Patch-wise Tracking Filters, to establish robust and maximally sparse hinge-like relations across the RGB video. (2) Outlier-aware Joint Optimization, for efficient camera parameter optimization by adaptive down-weighting of moving outliers, without reliance on motion priors. (3) A Two-stage Optimization Strategy, to enhance stability and optimization speed by a trade-off between the Softplus limits and convex minima in losses. We visually and numerically evaluate our camera estimates. To further validate accuracy, we feed the camera estimates into a 4D reconstruction method and assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics) and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates camera parameters more efficiently and accurately with a single RGB video as the only supervision.

RGB-exklusive optimierte Kameraparameter in dynamischen Szenen

RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

papers.abstract

Support