Otimização de Parâmetros de Câmera Supervisionada Apenas por RGB em Cenas Dinâmicas
RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
September 18, 2025
Autores: Fang Li, Hao Zhang, Narendra Ahuja
cs.AI
Resumo
Embora o COLMAP tenha permanecido por muito tempo como o método predominante para otimização de parâmetros de câmera em cenas estáticas, ele é limitado por seu tempo de execução prolongado e pela dependência de máscaras de movimento de verdade terrestre (GT) para aplicação em cenas dinâmicas. Muitos esforços tentaram melhorá-lo incorporando mais priors como supervisão, como comprimento focal GT, máscaras de movimento, nuvens de pontos 3D, poses de câmera e profundidade métrica, que, no entanto, geralmente não estão disponíveis em vídeos RGB capturados casualmente. Neste artigo, propomos um novo método para otimização de parâmetros de câmera mais precisa e eficiente em cenas dinâmicas, supervisionado apenas por um único vídeo RGB. Nosso método consiste em três componentes principais: (1) Filtros de Rastreamento por Patch, para estabelecer relações robustas e maximamente esparsas, semelhantes a dobradiças, ao longo do vídeo RGB. (2) Otimização Conjunta com Consciência de Outliers, para otimização eficiente de parâmetros de câmera por meio da redução adaptativa de peso de outliers em movimento, sem depender de priors de movimento. (3) Uma Estratégia de Otimização em Dois Estágios, para melhorar a estabilidade e a velocidade de otimização por meio de um equilíbrio entre os limites Softplus e os mínimos convexos nas funções de perda. Avaliamos visual e numericamente nossas estimativas de câmera. Para validar ainda mais a precisão, alimentamos as estimativas de câmera em um método de reconstrução 4D e avaliamos as cenas 3D resultantes, bem como os mapas RGB e de profundidade renderizados em 2D. Realizamos experimentos em 4 conjuntos de dados do mundo real (NeRF-DS, DAVIS, iPhone e TUM-dynamics) e 1 conjunto de dados sintético (MPI-Sintel), demonstrando que nosso método estima parâmetros de câmera de forma mais eficiente e precisa com um único vídeo RGB como única supervisão.
English
Although COLMAP has long remained the predominant method for camera parameter
optimization in static scenes, it is constrained by its lengthy runtime and
reliance on ground truth (GT) motion masks for application to dynamic scenes.
Many efforts attempted to improve it by incorporating more priors as
supervision such as GT focal length, motion masks, 3D point clouds, camera
poses, and metric depth, which, however, are typically unavailable in casually
captured RGB videos. In this paper, we propose a novel method for more accurate
and efficient camera parameter optimization in dynamic scenes solely supervised
by a single RGB video. Our method consists of three key components: (1)
Patch-wise Tracking Filters, to establish robust and maximally sparse
hinge-like relations across the RGB video. (2) Outlier-aware Joint
Optimization, for efficient camera parameter optimization by adaptive
down-weighting of moving outliers, without reliance on motion priors. (3) A
Two-stage Optimization Strategy, to enhance stability and optimization speed by
a trade-off between the Softplus limits and convex minima in losses. We
visually and numerically evaluate our camera estimates. To further validate
accuracy, we feed the camera estimates into a 4D reconstruction method and
assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform
experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics)
and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates
camera parameters more efficiently and accurately with a single RGB video as
the only supervision.