Optimización de Parámetros de Cámara Supervisada Exclusivamente por RGB en Escenas Dinámicas
RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
September 18, 2025
Autores: Fang Li, Hao Zhang, Narendra Ahuja
cs.AI
Resumen
Aunque COLMAP ha permanecido durante mucho tiempo como el método predominante para la optimización de parámetros de cámara en escenas estáticas, está limitado por su tiempo de ejecución prolongado y su dependencia de máscaras de movimiento de verdad de campo (GT) para su aplicación en escenas dinámicas. Muchos esfuerzos han intentado mejorarlo incorporando más previos como supervisión, como la longitud focal GT, máscaras de movimiento, nubes de puntos 3D, poses de cámara y profundidad métrica, que, sin embargo, generalmente no están disponibles en videos RGB capturados de manera casual. En este artículo, proponemos un método novedoso para una optimización más precisa y eficiente de los parámetros de cámara en escenas dinámicas supervisado únicamente por un solo video RGB. Nuestro método consta de tres componentes clave: (1) Filtros de seguimiento por parches, para establecer relaciones robustas y máximamente dispersas tipo bisagra a lo largo del video RGB. (2) Optimización conjunta consciente de valores atípicos, para la optimización eficiente de los parámetros de cámara mediante la ponderación adaptativa de valores atípicos en movimiento, sin depender de previos de movimiento. (3) Una estrategia de optimización en dos etapas, para mejorar la estabilidad y la velocidad de optimización mediante un equilibrio entre los límites de Softplus y los mínimos convexos en las pérdidas. Evaluamos visual y numéricamente nuestras estimaciones de cámara. Para validar aún más la precisión, alimentamos las estimaciones de cámara en un método de reconstrucción 4D y evaluamos las escenas 3D resultantes, así como los mapas RGB y de profundidad renderizados en 2D. Realizamos experimentos en 4 conjuntos de datos del mundo real (NeRF-DS, DAVIS, iPhone y TUM-dynamics) y 1 conjunto de datos sintético (MPI-Sintel), demostrando que nuestro método estima los parámetros de cámara de manera más eficiente y precisa con un solo video RGB como única supervisión.
English
Although COLMAP has long remained the predominant method for camera parameter
optimization in static scenes, it is constrained by its lengthy runtime and
reliance on ground truth (GT) motion masks for application to dynamic scenes.
Many efforts attempted to improve it by incorporating more priors as
supervision such as GT focal length, motion masks, 3D point clouds, camera
poses, and metric depth, which, however, are typically unavailable in casually
captured RGB videos. In this paper, we propose a novel method for more accurate
and efficient camera parameter optimization in dynamic scenes solely supervised
by a single RGB video. Our method consists of three key components: (1)
Patch-wise Tracking Filters, to establish robust and maximally sparse
hinge-like relations across the RGB video. (2) Outlier-aware Joint
Optimization, for efficient camera parameter optimization by adaptive
down-weighting of moving outliers, without reliance on motion priors. (3) A
Two-stage Optimization Strategy, to enhance stability and optimization speed by
a trade-off between the Softplus limits and convex minima in losses. We
visually and numerically evaluate our camera estimates. To further validate
accuracy, we feed the camera estimates into a 4D reconstruction method and
assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform
experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics)
and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates
camera parameters more efficiently and accurately with a single RGB video as
the only supervision.