Оптимизация параметров камеры с использованием только RGB-данных в динамических сценах
RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
September 18, 2025
Авторы: Fang Li, Hao Zhang, Narendra Ahuja
cs.AI
Аннотация
Хотя COLMAP долгое время оставался преобладающим методом для оптимизации параметров камеры в статических сценах, он ограничен длительным временем выполнения и зависимостью от масок движения, основанных на точных данных (GT), для применения в динамических сценах. Многие попытки улучшить его включали использование дополнительных априорных данных в качестве обучения, таких как точное фокусное расстояние, маски движения, 3D облака точек, позы камеры и метрическая глубина, которые, однако, обычно недоступны в случайно снятых RGB-видео. В данной статье мы предлагаем новый метод для более точной и эффективной оптимизации параметров камеры в динамических сценах, использующий в качестве обучения только одно RGB-видео. Наш метод состоит из трех ключевых компонентов: (1) Фильтры отслеживания на основе патчей, для установления устойчивых и максимально разреженных шарнирных связей по всему RGB-видео. (2) Совместная оптимизация с учетом выбросов, для эффективной оптимизации параметров камеры путем адаптивного снижения веса движущихся выбросов без использования априорных данных о движении. (3) Двухэтапная стратегия оптимизации, для повышения стабильности и скорости оптимизации за счет компромисса между пределами Softplus и выпуклыми минимумами в функциях потерь. Мы визуально и численно оцениваем наши оценки параметров камеры. Для дальнейшей проверки точности мы передаем оценки параметров камеры в метод 4D-реконструкции и оцениваем полученные 3D-сцены, а также визуализированные 2D RGB и карты глубины. Мы проводим эксперименты на 4 реальных наборах данных (NeRF-DS, DAVIS, iPhone и TUM-dynamics) и 1 синтетическом наборе данных (MPI-Sintel), демонстрируя, что наш метод оценивает параметры камеры более эффективно и точно, используя только одно RGB-видео в качестве обучения.
English
Although COLMAP has long remained the predominant method for camera parameter
optimization in static scenes, it is constrained by its lengthy runtime and
reliance on ground truth (GT) motion masks for application to dynamic scenes.
Many efforts attempted to improve it by incorporating more priors as
supervision such as GT focal length, motion masks, 3D point clouds, camera
poses, and metric depth, which, however, are typically unavailable in casually
captured RGB videos. In this paper, we propose a novel method for more accurate
and efficient camera parameter optimization in dynamic scenes solely supervised
by a single RGB video. Our method consists of three key components: (1)
Patch-wise Tracking Filters, to establish robust and maximally sparse
hinge-like relations across the RGB video. (2) Outlier-aware Joint
Optimization, for efficient camera parameter optimization by adaptive
down-weighting of moving outliers, without reliance on motion priors. (3) A
Two-stage Optimization Strategy, to enhance stability and optimization speed by
a trade-off between the Softplus limits and convex minima in losses. We
visually and numerically evaluate our camera estimates. To further validate
accuracy, we feed the camera estimates into a 4D reconstruction method and
assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform
experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics)
and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates
camera parameters more efficiently and accurately with a single RGB video as
the only supervision.