Повышение устойчивости при совместной оптимизации поз камер и декомпозированных низкоранговых тензорных полей излучения
Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields
February 20, 2024
Авторы: Bo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu
cs.AI
Аннотация
В данной статье мы предлагаем алгоритм, позволяющий совместно уточнять позу камеры и геометрию сцены, представленную в виде разложенного низкорангового тензора, используя только 2D-изображения в качестве обучающих данных. Сначала мы проводим пилотное исследование на основе одномерного сигнала и связываем полученные результаты с трехмерными сценариями, где наивная совместная оптимизация позы на основе воксельных NeRF может легко привести к субоптимальным решениям. Кроме того, на основе анализа частотного спектра мы предлагаем применять сверточные гауссовы фильтры к 2D и 3D полям излучения для поэтапного обучения от грубого к точному, что позволяет совместно оптимизировать позу камеры. Используя свойство разложения в низкоранговом тензоре, наш метод достигает эффекта, эквивалентного полному 3D-свертыванию, с минимальными вычислительными затратами. Для повышения устойчивости и стабильности совместной оптимизации мы также предлагаем методы сглаженного 2D-обучения, случайного масштабирования параметров ядра и маски потерь, ориентированной на границы. Многочисленные количественные и качественные оценки демонстрируют, что предложенный нами подход обеспечивает превосходную производительность в синтезе новых видов, а также быстрое сходимость при оптимизации.
English
In this paper, we propose an algorithm that allows joint refinement of camera
pose and scene geometry represented by decomposed low-rank tensor, using only
2D images as supervision. First, we conduct a pilot study based on a 1D signal
and relate our findings to 3D scenarios, where the naive joint pose
optimization on voxel-based NeRFs can easily lead to sub-optimal solutions.
Moreover, based on the analysis of the frequency spectrum, we propose to apply
convolutional Gaussian filters on 2D and 3D radiance fields for a
coarse-to-fine training schedule that enables joint camera pose optimization.
Leveraging the decomposition property in decomposed low-rank tensor, our method
achieves an equivalent effect to brute-force 3D convolution with only incurring
little computational overhead. To further improve the robustness and stability
of joint optimization, we also propose techniques of smoothed 2D supervision,
randomly scaled kernel parameters, and edge-guided loss mask. Extensive
quantitative and qualitative evaluations demonstrate that our proposed
framework achieves superior performance in novel view synthesis as well as
rapid convergence for optimization.