Mejora de la Robustez para la Optimización Conjunta de Poses de Cámara y Campos de Radiancia Tensoriales Descompuestos de Bajo Rango

Resumen

En este artículo, proponemos un algoritmo que permite el refinamiento conjunto de la pose de la cámara y la geometría de la escena representada mediante un tensor de bajo rango descompuesto, utilizando únicamente imágenes 2D como supervisión. Primero, realizamos un estudio piloto basado en una señal 1D y relacionamos nuestros hallazgos con escenarios 3D, donde la optimización conjunta ingenua de la pose en NeRFs basados en vóxeles puede fácilmente conducir a soluciones subóptimas. Además, basándonos en el análisis del espectro de frecuencias, proponemos aplicar filtros gaussianos convolucionales en campos de radiancia 2D y 3D para un entrenamiento de coarse-to-fine que permite la optimización conjunta de la pose de la cámara. Aprovechando la propiedad de descomposición en el tensor de bajo rango descompuesto, nuestro método logra un efecto equivalente a la convolución 3D por fuerza bruta con solo incurrir en un pequeño sobrecosto computacional. Para mejorar aún más la robustez y estabilidad de la optimización conjunta, también proponemos técnicas de supervisión 2D suavizada, parámetros de kernel escalados aleatoriamente y máscara de pérdida guiada por bordes. Evaluaciones cuantitativas y cualitativas exhaustivas demuestran que nuestro marco propuesto logra un rendimiento superior en la síntesis de nuevas vistas, así como una rápida convergencia en la optimización.

English

In this paper, we propose an algorithm that allows joint refinement of camera pose and scene geometry represented by decomposed low-rank tensor, using only 2D images as supervision. First, we conduct a pilot study based on a 1D signal and relate our findings to 3D scenarios, where the naive joint pose optimization on voxel-based NeRFs can easily lead to sub-optimal solutions. Moreover, based on the analysis of the frequency spectrum, we propose to apply convolutional Gaussian filters on 2D and 3D radiance fields for a coarse-to-fine training schedule that enables joint camera pose optimization. Leveraging the decomposition property in decomposed low-rank tensor, our method achieves an equivalent effect to brute-force 3D convolution with only incurring little computational overhead. To further improve the robustness and stability of joint optimization, we also propose techniques of smoothed 2D supervision, randomly scaled kernel parameters, and edge-guided loss mask. Extensive quantitative and qualitative evaluations demonstrate that our proposed framework achieves superior performance in novel view synthesis as well as rapid convergence for optimization.

Mejora de la Robustez para la Optimización Conjunta de Poses de Cámara y Campos de Radiancia Tensoriales Descompuestos de Bajo Rango

Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

Resumen

Support