Het verbeteren van robuustheid voor de gezamenlijke optimalisatie van cameraposities en ontbonden laag-rang tensoriële stralingsvelden
Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields
February 20, 2024
Auteurs: Bo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu
cs.AI
Samenvatting
In dit artikel stellen we een algoritme voor dat gezamenlijke verfijning van camerapositie en scènegeometrie, vertegenwoordigd door een ontbonden laag-rang tensor, mogelijk maakt, waarbij alleen 2D-beelden als supervisie worden gebruikt. Eerst voeren we een pilotstudie uit op basis van een 1D-signaal en relateren we onze bevindingen aan 3D-scenario's, waar naïeve gezamenlijke pose-optimalisatie op voxelgebaseerde NeRF's gemakkelijk kan leiden tot suboptimale oplossingen. Bovendien stellen we, gebaseerd op de analyse van het frequentiespectrum, voor om convolutionele Gauss-filters toe te passen op 2D- en 3D-stralingsvelden voor een grof-naar-fijn trainingsschema dat gezamenlijke camerapose-optimalisatie mogelijk maakt. Door gebruik te maken van de ontbindingseigenschap in de ontbonden laag-rang tensor, bereikt onze methode een equivalent effect aan brute-force 3D-convolutie met slechts een minimale rekenkundige overhead. Om de robuustheid en stabiliteit van de gezamenlijke optimalisatie verder te verbeteren, stellen we ook technieken voor van gladgestrekte 2D-supervisie, willekeurig geschaalde kernelparameters en een randgeleid verliesmasker. Uitgebreide kwantitatieve en kwalitatieve evaluaties tonen aan dat ons voorgestelde framework superieure prestaties bereikt in nieuwe weergavesynthese, evenals snelle convergentie voor optimalisatie.
English
In this paper, we propose an algorithm that allows joint refinement of camera
pose and scene geometry represented by decomposed low-rank tensor, using only
2D images as supervision. First, we conduct a pilot study based on a 1D signal
and relate our findings to 3D scenarios, where the naive joint pose
optimization on voxel-based NeRFs can easily lead to sub-optimal solutions.
Moreover, based on the analysis of the frequency spectrum, we propose to apply
convolutional Gaussian filters on 2D and 3D radiance fields for a
coarse-to-fine training schedule that enables joint camera pose optimization.
Leveraging the decomposition property in decomposed low-rank tensor, our method
achieves an equivalent effect to brute-force 3D convolution with only incurring
little computational overhead. To further improve the robustness and stability
of joint optimization, we also propose techniques of smoothed 2D supervision,
randomly scaled kernel parameters, and edge-guided loss mask. Extensive
quantitative and qualitative evaluations demonstrate that our proposed
framework achieves superior performance in novel view synthesis as well as
rapid convergence for optimization.