Het verbeteren van robuustheid voor de gezamenlijke optimalisatie van cameraposities en ontbonden laag-rang tensoriële stralingsvelden

Samenvatting

In dit artikel stellen we een algoritme voor dat gezamenlijke verfijning van camerapositie en scènegeometrie, vertegenwoordigd door een ontbonden laag-rang tensor, mogelijk maakt, waarbij alleen 2D-beelden als supervisie worden gebruikt. Eerst voeren we een pilotstudie uit op basis van een 1D-signaal en relateren we onze bevindingen aan 3D-scenario's, waar naïeve gezamenlijke pose-optimalisatie op voxelgebaseerde NeRF's gemakkelijk kan leiden tot suboptimale oplossingen. Bovendien stellen we, gebaseerd op de analyse van het frequentiespectrum, voor om convolutionele Gauss-filters toe te passen op 2D- en 3D-stralingsvelden voor een grof-naar-fijn trainingsschema dat gezamenlijke camerapose-optimalisatie mogelijk maakt. Door gebruik te maken van de ontbindingseigenschap in de ontbonden laag-rang tensor, bereikt onze methode een equivalent effect aan brute-force 3D-convolutie met slechts een minimale rekenkundige overhead. Om de robuustheid en stabiliteit van de gezamenlijke optimalisatie verder te verbeteren, stellen we ook technieken voor van gladgestrekte 2D-supervisie, willekeurig geschaalde kernelparameters en een randgeleid verliesmasker. Uitgebreide kwantitatieve en kwalitatieve evaluaties tonen aan dat ons voorgestelde framework superieure prestaties bereikt in nieuwe weergavesynthese, evenals snelle convergentie voor optimalisatie.

English

In this paper, we propose an algorithm that allows joint refinement of camera pose and scene geometry represented by decomposed low-rank tensor, using only 2D images as supervision. First, we conduct a pilot study based on a 1D signal and relate our findings to 3D scenarios, where the naive joint pose optimization on voxel-based NeRFs can easily lead to sub-optimal solutions. Moreover, based on the analysis of the frequency spectrum, we propose to apply convolutional Gaussian filters on 2D and 3D radiance fields for a coarse-to-fine training schedule that enables joint camera pose optimization. Leveraging the decomposition property in decomposed low-rank tensor, our method achieves an equivalent effect to brute-force 3D convolution with only incurring little computational overhead. To further improve the robustness and stability of joint optimization, we also propose techniques of smoothed 2D supervision, randomly scaled kernel parameters, and edge-guided loss mask. Extensive quantitative and qualitative evaluations demonstrate that our proposed framework achieves superior performance in novel view synthesis as well as rapid convergence for optimization.

Het verbeteren van robuustheid voor de gezamenlijke optimalisatie van cameraposities en ontbonden laag-rang tensoriële stralingsvelden

Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

Samenvatting

Support