Mejora de la Robustez para la Optimización Conjunta de Poses de Cámara y Campos de Radiancia Tensoriales Descompuestos de Bajo Rango
Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields
February 20, 2024
Autores: Bo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu
cs.AI
Resumen
En este artículo, proponemos un algoritmo que permite el refinamiento conjunto de la pose de la cámara y la geometría de la escena representada mediante un tensor de bajo rango descompuesto, utilizando únicamente imágenes 2D como supervisión. Primero, realizamos un estudio piloto basado en una señal 1D y relacionamos nuestros hallazgos con escenarios 3D, donde la optimización conjunta ingenua de la pose en NeRFs basados en vóxeles puede fácilmente conducir a soluciones subóptimas. Además, basándonos en el análisis del espectro de frecuencias, proponemos aplicar filtros gaussianos convolucionales en campos de radiancia 2D y 3D para un entrenamiento de coarse-to-fine que permite la optimización conjunta de la pose de la cámara. Aprovechando la propiedad de descomposición en el tensor de bajo rango descompuesto, nuestro método logra un efecto equivalente a la convolución 3D por fuerza bruta con solo incurrir en un pequeño sobrecosto computacional. Para mejorar aún más la robustez y estabilidad de la optimización conjunta, también proponemos técnicas de supervisión 2D suavizada, parámetros de kernel escalados aleatoriamente y máscara de pérdida guiada por bordes. Evaluaciones cuantitativas y cualitativas exhaustivas demuestran que nuestro marco propuesto logra un rendimiento superior en la síntesis de nuevas vistas, así como una rápida convergencia en la optimización.
English
In this paper, we propose an algorithm that allows joint refinement of camera
pose and scene geometry represented by decomposed low-rank tensor, using only
2D images as supervision. First, we conduct a pilot study based on a 1D signal
and relate our findings to 3D scenarios, where the naive joint pose
optimization on voxel-based NeRFs can easily lead to sub-optimal solutions.
Moreover, based on the analysis of the frequency spectrum, we propose to apply
convolutional Gaussian filters on 2D and 3D radiance fields for a
coarse-to-fine training schedule that enables joint camera pose optimization.
Leveraging the decomposition property in decomposed low-rank tensor, our method
achieves an equivalent effect to brute-force 3D convolution with only incurring
little computational overhead. To further improve the robustness and stability
of joint optimization, we also propose techniques of smoothed 2D supervision,
randomly scaled kernel parameters, and edge-guided loss mask. Extensive
quantitative and qualitative evaluations demonstrate that our proposed
framework achieves superior performance in novel view synthesis as well as
rapid convergence for optimization.