Оптимизация параметров камеры с использованием только RGB-данных в динамических сценах

Аннотация

Хотя COLMAP долгое время оставался преобладающим методом для оптимизации параметров камеры в статических сценах, он ограничен длительным временем выполнения и зависимостью от масок движения, основанных на точных данных (GT), для применения в динамических сценах. Многие попытки улучшить его включали использование дополнительных априорных данных в качестве обучения, таких как точное фокусное расстояние, маски движения, 3D облака точек, позы камеры и метрическая глубина, которые, однако, обычно недоступны в случайно снятых RGB-видео. В данной статье мы предлагаем новый метод для более точной и эффективной оптимизации параметров камеры в динамических сценах, использующий в качестве обучения только одно RGB-видео. Наш метод состоит из трех ключевых компонентов: (1) Фильтры отслеживания на основе патчей, для установления устойчивых и максимально разреженных шарнирных связей по всему RGB-видео. (2) Совместная оптимизация с учетом выбросов, для эффективной оптимизации параметров камеры путем адаптивного снижения веса движущихся выбросов без использования априорных данных о движении. (3) Двухэтапная стратегия оптимизации, для повышения стабильности и скорости оптимизации за счет компромисса между пределами Softplus и выпуклыми минимумами в функциях потерь. Мы визуально и численно оцениваем наши оценки параметров камеры. Для дальнейшей проверки точности мы передаем оценки параметров камеры в метод 4D-реконструкции и оцениваем полученные 3D-сцены, а также визуализированные 2D RGB и карты глубины. Мы проводим эксперименты на 4 реальных наборах данных (NeRF-DS, DAVIS, iPhone и TUM-dynamics) и 1 синтетическом наборе данных (MPI-Sintel), демонстрируя, что наш метод оценивает параметры камеры более эффективно и точно, используя только одно RGB-видео в качестве обучения.

English

Although COLMAP has long remained the predominant method for camera parameter optimization in static scenes, it is constrained by its lengthy runtime and reliance on ground truth (GT) motion masks for application to dynamic scenes. Many efforts attempted to improve it by incorporating more priors as supervision such as GT focal length, motion masks, 3D point clouds, camera poses, and metric depth, which, however, are typically unavailable in casually captured RGB videos. In this paper, we propose a novel method for more accurate and efficient camera parameter optimization in dynamic scenes solely supervised by a single RGB video. Our method consists of three key components: (1) Patch-wise Tracking Filters, to establish robust and maximally sparse hinge-like relations across the RGB video. (2) Outlier-aware Joint Optimization, for efficient camera parameter optimization by adaptive down-weighting of moving outliers, without reliance on motion priors. (3) A Two-stage Optimization Strategy, to enhance stability and optimization speed by a trade-off between the Softplus limits and convex minima in losses. We visually and numerically evaluate our camera estimates. To further validate accuracy, we feed the camera estimates into a 4D reconstruction method and assess the resulting 3D scenes, and rendered 2D RGB and depth maps. We perform experiments on 4 real-world datasets (NeRF-DS, DAVIS, iPhone, and TUM-dynamics) and 1 synthetic dataset (MPI-Sintel), demonstrating that our method estimates camera parameters more efficiently and accurately with a single RGB video as the only supervision.

Оптимизация параметров камеры с использованием только RGB-данных в динамических сценах

RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

Аннотация

Support