Optimización de Parámetros de Cámara Supervisada Exclusivamente por RGB en Escenas Dinámicas

Resumen

Aunque COLMAP ha permanecido durante mucho tiempo como el método predominante para la optimización de parámetros de cámara en escenas estáticas, está limitado por su tiempo de ejecución prolongado y su dependencia de máscaras de movimiento de verdad de campo (GT) para su aplicación en escenas dinámicas. Muchos esfuerzos han intentado mejorarlo incorporando más previos como supervisión, como la longitud focal GT, máscaras de movimiento, nubes de puntos 3D, poses de cámara y profundidad métrica, que, sin embargo, generalmente no están disponibles en videos RGB capturados de manera casual. En este artículo, proponemos un método novedoso para una optimización más precisa y eficiente de los parámetros de cámara en escenas dinámicas supervisado únicamente por un solo video RGB. Nuestro método consta de tres componentes clave: (1) Filtros de seguimiento por parches, para establecer relaciones robustas y máximamente dispersas tipo bisagra a lo largo del video RGB. (2) Optimización conjunta consciente de valores atípicos, para la optimización eficiente de los parámetros de cámara mediante la ponderación adaptativa de valores atípicos en movimiento, sin depender de previos de movimiento. (3) Una estrategia de optimización en dos etapas, para mejorar la estabilidad y la velocidad de optimización mediante un equilibrio entre los límites de Softplus y los mínimos convexos en las pérdidas. Evaluamos visual y numéricamente nuestras estimaciones de cámara. Para validar aún más la precisión, alimentamos las estimaciones de cámara en un método de reconstrucción 4D y evaluamos las escenas 3D resultantes, así como los mapas RGB y de profundidad renderizados en 2D. Realizamos experimentos en 4 conjuntos de datos del mundo real (NeRF-DS, DAVIS, iPhone y TUM-dynamics) y 1 conjunto de datos sintético (MPI-Sintel), demostrando que nuestro método estima los parámetros de cámara de manera más eficiente y precisa con un solo video RGB como única supervisión.

English

Although COLMAP has long remained the predominant method for camera parameter optimization in static scenes, it is constrained by its lengthy runtime and reliance on ground truth (GT) motion masks for application to dynamic scenes. Many efforts attempted to improve it by incorporating more priors as supervision such as GT focal length, motion masks, 3D point clouds, camera poses, and metric depth, which, however, are typically unavailable in casually captured RGB videos. In this paper, we propose a novel method for more accurate and efficient camera parameter optimization in dynamic scenes solely supervised by a single RGB video. Our method consists of three key components: (1) Patch-wise Tracking Filters, to establish robust and maximally sparse hinge-like relations across the RGB video. (2) Outlier-aware Joint Optimization, for efficient camera parameter optimization by adaptive down-weighting of moving outliers, without reliance on motion priors. (3) A Two-stage Optimization Strategy, to enhance stability and optimization speed by a trade-off between the Softplus limits and convex minima in losses. We visually and numerically evaluate our camera estimates. To further validate accuracy, we feed the camera estimates into a 4D reconstruction method and assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics) and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates camera parameters more efficiently and accurately with a single RGB video as the only supervision.

Optimización de Parámetros de Cámara Supervisada Exclusivamente por RGB en Escenas Dinámicas

RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

Resumen

Support