Miglioramento della robustezza per l'ottimizzazione congiunta delle pose della fotocamera e dei campi di radianza tensoriali decomposti a basso rango

Abstract

In questo articolo, proponiamo un algoritmo che consente l'affinamento congiunto della posa della telecamera e della geometria della scena rappresentata da un tensore a basso rango decomposto, utilizzando solo immagini 2D come supervisione. Inizialmente, conduciamo uno studio pilota basato su un segnale 1D e colleghiamo i nostri risultati agli scenari 3D, dove l'ottimizzazione congiunta ingenua della posa su NeRF basati su voxel può facilmente portare a soluzioni sub-ottimali. Inoltre, basandoci sull'analisi dello spettro di frequenza, proponiamo di applicare filtri gaussiani convoluzionali sui campi di radianza 2D e 3D per un programma di addestramento da grossolano a fine che consente l'ottimizzazione congiunta della posa della telecamera. Sfruttando la proprietà di decomposizione nel tensore a basso rango decomposto, il nostro metodo raggiunge un effetto equivalente alla convoluzione 3D a forza bruta con un sovraccarico computazionale minimo. Per migliorare ulteriormente la robustezza e la stabilità dell'ottimizzazione congiunta, proponiamo anche tecniche di supervisione 2D smussata, parametri del kernel scalati casualmente e maschera di perdita guidata dai bordi. Valutazioni quantitative e qualitative estensive dimostrano che il nostro framework proposto raggiunge prestazioni superiori nella sintesi di nuove viste, nonché una rapida convergenza per l'ottimizzazione.

English

In this paper, we propose an algorithm that allows joint refinement of camera pose and scene geometry represented by decomposed low-rank tensor, using only 2D images as supervision. First, we conduct a pilot study based on a 1D signal and relate our findings to 3D scenarios, where the naive joint pose optimization on voxel-based NeRFs can easily lead to sub-optimal solutions. Moreover, based on the analysis of the frequency spectrum, we propose to apply convolutional Gaussian filters on 2D and 3D radiance fields for a coarse-to-fine training schedule that enables joint camera pose optimization. Leveraging the decomposition property in decomposed low-rank tensor, our method achieves an equivalent effect to brute-force 3D convolution with only incurring little computational overhead. To further improve the robustness and stability of joint optimization, we also propose techniques of smoothed 2D supervision, randomly scaled kernel parameters, and edge-guided loss mask. Extensive quantitative and qualitative evaluations demonstrate that our proposed framework achieves superior performance in novel view synthesis as well as rapid convergence for optimization.

Miglioramento della robustezza per l'ottimizzazione congiunta delle pose della fotocamera e dei campi di radianza tensoriali decomposti a basso rango

Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

Abstract

Support