ChatPaper.aiChatPaper

Otimização de Parâmetros de Câmera Supervisionada Apenas por RGB em Cenas Dinâmicas

RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

September 18, 2025
Autores: Fang Li, Hao Zhang, Narendra Ahuja
cs.AI

Resumo

Embora o COLMAP tenha permanecido por muito tempo como o método predominante para otimização de parâmetros de câmera em cenas estáticas, ele é limitado por seu tempo de execução prolongado e pela dependência de máscaras de movimento de verdade terrestre (GT) para aplicação em cenas dinâmicas. Muitos esforços tentaram melhorá-lo incorporando mais priors como supervisão, como comprimento focal GT, máscaras de movimento, nuvens de pontos 3D, poses de câmera e profundidade métrica, que, no entanto, geralmente não estão disponíveis em vídeos RGB capturados casualmente. Neste artigo, propomos um novo método para otimização de parâmetros de câmera mais precisa e eficiente em cenas dinâmicas, supervisionado apenas por um único vídeo RGB. Nosso método consiste em três componentes principais: (1) Filtros de Rastreamento por Patch, para estabelecer relações robustas e maximamente esparsas, semelhantes a dobradiças, ao longo do vídeo RGB. (2) Otimização Conjunta com Consciência de Outliers, para otimização eficiente de parâmetros de câmera por meio da redução adaptativa de peso de outliers em movimento, sem depender de priors de movimento. (3) Uma Estratégia de Otimização em Dois Estágios, para melhorar a estabilidade e a velocidade de otimização por meio de um equilíbrio entre os limites Softplus e os mínimos convexos nas funções de perda. Avaliamos visual e numericamente nossas estimativas de câmera. Para validar ainda mais a precisão, alimentamos as estimativas de câmera em um método de reconstrução 4D e avaliamos as cenas 3D resultantes, bem como os mapas RGB e de profundidade renderizados em 2D. Realizamos experimentos em 4 conjuntos de dados do mundo real (NeRF-DS, DAVIS, iPhone e TUM-dynamics) e 1 conjunto de dados sintético (MPI-Sintel), demonstrando que nosso método estima parâmetros de câmera de forma mais eficiente e precisa com um único vídeo RGB como única supervisão.
English
Although COLMAP has long remained the predominant method for camera parameter optimization in static scenes, it is constrained by its lengthy runtime and reliance on ground truth (GT) motion masks for application to dynamic scenes. Many efforts attempted to improve it by incorporating more priors as supervision such as GT focal length, motion masks, 3D point clouds, camera poses, and metric depth, which, however, are typically unavailable in casually captured RGB videos. In this paper, we propose a novel method for more accurate and efficient camera parameter optimization in dynamic scenes solely supervised by a single RGB video. Our method consists of three key components: (1) Patch-wise Tracking Filters, to establish robust and maximally sparse hinge-like relations across the RGB video. (2) Outlier-aware Joint Optimization, for efficient camera parameter optimization by adaptive down-weighting of moving outliers, without reliance on motion priors. (3) A Two-stage Optimization Strategy, to enhance stability and optimization speed by a trade-off between the Softplus limits and convex minima in losses. We visually and numerically evaluate our camera estimates. To further validate accuracy, we feed the camera estimates into a 4D reconstruction method and assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics) and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates camera parameters more efficiently and accurately with a single RGB video as the only supervision.
PDF52September 22, 2025