Verbesserung der Robustheit für die gemeinsame Optimierung von Kameraposen und zerlegten niedrigrangigen tensoriellen Strahlungsfeldern
Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields
February 20, 2024
Autoren: Bo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu
cs.AI
Zusammenfassung
In diesem Artikel schlagen wir einen Algorithmus vor, der die gemeinsame Verfeinerung der Kameraposition und der Szenengeometrie, dargestellt durch einen zerlegten niedrigrangigen Tensor, ermöglicht, wobei lediglich 2D-Bilder als Supervision verwendet werden. Zunächst führen wir eine Pilotstudie basierend auf einem 1D-Signal durch und beziehen unsere Erkenntnisse auf 3D-Szenarien, bei denen die naive gemeinsame Pose-Optimierung auf voxelbasierten NeRFs leicht zu suboptimalen Lösungen führen kann. Darüber hinaus schlagen wir basierend auf der Analyse des Frequenzspektrums vor, konvolutionale Gauß-Filter auf 2D- und 3D-Strahlungsfeldern für einen grob-zu-fein Trainingsplan anzuwenden, der die gemeinsame Kameraposenoptimierung ermöglicht. Durch die Nutzung der Zerlegungseigenschaft in zerlegten niedrigrangigen Tensoren erreicht unsere Methode einen äquivalenten Effekt zur Brute-Force-3D-Faltung, wobei nur geringer Rechenaufwand entsteht. Um die Robustheit und Stabilität der gemeinsamen Optimierung weiter zu verbessern, schlagen wir auch Techniken der geglätteten 2D-Supervision, zufällig skalierte Kernelparameter und kantenorientierte Verlustmasken vor. Umfangreiche quantitative und qualitative Auswertungen zeigen, dass unser vorgeschlagenes Framework eine überlegene Leistung in der Synthese neuer Ansichten sowie eine schnelle Konvergenz bei der Optimierung erreicht.
English
In this paper, we propose an algorithm that allows joint refinement of camera
pose and scene geometry represented by decomposed low-rank tensor, using only
2D images as supervision. First, we conduct a pilot study based on a 1D signal
and relate our findings to 3D scenarios, where the naive joint pose
optimization on voxel-based NeRFs can easily lead to sub-optimal solutions.
Moreover, based on the analysis of the frequency spectrum, we propose to apply
convolutional Gaussian filters on 2D and 3D radiance fields for a
coarse-to-fine training schedule that enables joint camera pose optimization.
Leveraging the decomposition property in decomposed low-rank tensor, our method
achieves an equivalent effect to brute-force 3D convolution with only incurring
little computational overhead. To further improve the robustness and stability
of joint optimization, we also propose techniques of smoothed 2D supervision,
randomly scaled kernel parameters, and edge-guided loss mask. Extensive
quantitative and qualitative evaluations demonstrate that our proposed
framework achieves superior performance in novel view synthesis as well as
rapid convergence for optimization.Summary
AI-Generated Summary