Verbesserung der Robustheit für die gemeinsame Optimierung von Kameraposen und zerlegten niedrigrangigen tensoriellen Strahlungsfeldern

papers.abstract

In diesem Artikel schlagen wir einen Algorithmus vor, der die gemeinsame Verfeinerung der Kameraposition und der Szenengeometrie, dargestellt durch einen zerlegten niedrigrangigen Tensor, ermöglicht, wobei lediglich 2D-Bilder als Supervision verwendet werden. Zunächst führen wir eine Pilotstudie basierend auf einem 1D-Signal durch und beziehen unsere Erkenntnisse auf 3D-Szenarien, bei denen die naive gemeinsame Pose-Optimierung auf voxelbasierten NeRFs leicht zu suboptimalen Lösungen führen kann. Darüber hinaus schlagen wir basierend auf der Analyse des Frequenzspektrums vor, konvolutionale Gauß-Filter auf 2D- und 3D-Strahlungsfeldern für einen grob-zu-fein Trainingsplan anzuwenden, der die gemeinsame Kameraposenoptimierung ermöglicht. Durch die Nutzung der Zerlegungseigenschaft in zerlegten niedrigrangigen Tensoren erreicht unsere Methode einen äquivalenten Effekt zur Brute-Force-3D-Faltung, wobei nur geringer Rechenaufwand entsteht. Um die Robustheit und Stabilität der gemeinsamen Optimierung weiter zu verbessern, schlagen wir auch Techniken der geglätteten 2D-Supervision, zufällig skalierte Kernelparameter und kantenorientierte Verlustmasken vor. Umfangreiche quantitative und qualitative Auswertungen zeigen, dass unser vorgeschlagenes Framework eine überlegene Leistung in der Synthese neuer Ansichten sowie eine schnelle Konvergenz bei der Optimierung erreicht.

English

In this paper, we propose an algorithm that allows joint refinement of camera pose and scene geometry represented by decomposed low-rank tensor, using only 2D images as supervision. First, we conduct a pilot study based on a 1D signal and relate our findings to 3D scenarios, where the naive joint pose optimization on voxel-based NeRFs can easily lead to sub-optimal solutions. Moreover, based on the analysis of the frequency spectrum, we propose to apply convolutional Gaussian filters on 2D and 3D radiance fields for a coarse-to-fine training schedule that enables joint camera pose optimization. Leveraging the decomposition property in decomposed low-rank tensor, our method achieves an equivalent effect to brute-force 3D convolution with only incurring little computational overhead. To further improve the robustness and stability of joint optimization, we also propose techniques of smoothed 2D supervision, randomly scaled kernel parameters, and edge-guided loss mask. Extensive quantitative and qualitative evaluations demonstrate that our proposed framework achieves superior performance in novel view synthesis as well as rapid convergence for optimization.

Verbesserung der Robustheit für die gemeinsame Optimierung von Kameraposen und zerlegten niedrigrangigen tensoriellen Strahlungsfeldern

Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

papers.abstract

Support