RGB-exklusive optimierte Kameraparameter in dynamischen Szenen
RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
September 18, 2025
papers.authors: Fang Li, Hao Zhang, Narendra Ahuja
cs.AI
papers.abstract
Obwohl COLMAP lange Zeit die vorherrschende Methode für die Optimierung von Kameraparametern in statischen Szenen geblieben ist, wird es durch seine lange Laufzeit und die Abhängigkeit von Ground-Truth (GT)-Bewegungsmasken für die Anwendung auf dynamische Szenen eingeschränkt. Viele Bemühungen haben versucht, es durch die Einbeziehung weiterer Prioritäten als Supervision zu verbessern, wie z. B. GT-Brennweite, Bewegungsmasken, 3D-Punktwolken, Kameraposen und metrische Tiefe, die jedoch in zufällig aufgenommenen RGB-Videos typischerweise nicht verfügbar sind. In diesem Artikel schlagen wir eine neuartige Methode für eine genauere und effizientere Optimierung von Kameraparametern in dynamischen Szenen vor, die ausschließlich durch ein einzelnes RGB-Video supervidiert wird. Unsere Methode besteht aus drei Schlüsselkomponenten: (1) Patchweise Tracking-Filter, um robuste und maximal spärliche Scharnier-ähnliche Beziehungen über das RGB-Video hinweg herzustellen. (2) Outlier-aware Joint Optimization, für eine effiziente Optimierung von Kameraparametern durch adaptive Gewichtung von beweglichen Ausreißern, ohne Abhängigkeit von Bewegungs-Prioritäten. (3) Eine zweistufige Optimierungsstrategie, um die Stabilität und Optimierungsgeschwindigkeit durch einen Kompromiss zwischen den Softplus-Grenzen und konvexen Minima in den Verlusten zu verbessern. Wir bewerten unsere Kameraschätzungen visuell und numerisch. Um die Genauigkeit weiter zu validieren, speisen wir die Kameraschätzungen in eine 4D-Rekonstruktionsmethode ein und bewerten die resultierenden 3D-Szenen sowie die gerenderten 2D-RGB- und Tiefenkarten. Wir führen Experimente auf 4 realen Datensätzen (NeRF-DS, DAVIS, iPhone und TUM-dynamics) und 1 synthetischen Datensatz (MPI-Sintel) durch und zeigen, dass unsere Methode Kameraparameter effizienter und genauer mit einem einzelnen RGB-Video als einziger Supervision schätzt.
English
Although COLMAP has long remained the predominant method for camera parameter
optimization in static scenes, it is constrained by its lengthy runtime and
reliance on ground truth (GT) motion masks for application to dynamic scenes.
Many efforts attempted to improve it by incorporating more priors as
supervision such as GT focal length, motion masks, 3D point clouds, camera
poses, and metric depth, which, however, are typically unavailable in casually
captured RGB videos. In this paper, we propose a novel method for more accurate
and efficient camera parameter optimization in dynamic scenes solely supervised
by a single RGB video. Our method consists of three key components: (1)
Patch-wise Tracking Filters, to establish robust and maximally sparse
hinge-like relations across the RGB video. (2) Outlier-aware Joint
Optimization, for efficient camera parameter optimization by adaptive
down-weighting of moving outliers, without reliance on motion priors. (3) A
Two-stage Optimization Strategy, to enhance stability and optimization speed by
a trade-off between the Softplus limits and convex minima in losses. We
visually and numerically evaluate our camera estimates. To further validate
accuracy, we feed the camera estimates into a 4D reconstruction method and
assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform
experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics)
and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates
camera parameters more efficiently and accurately with a single RGB video as
the only supervision.