Amélioration de la robustesse pour l'optimisation conjointe des poses de caméra et des champs de radiance tensoriels décomposés de faible rang
Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields
February 20, 2024
papers.authors: Bo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu
cs.AI
papers.abstract
Dans cet article, nous proposons un algorithme permettant le raffinement conjoint de la pose de la caméra et de la géométrie de la scène représentée par un tenseur de faible rang décomposé, en utilisant uniquement des images 2D comme supervision. Tout d'abord, nous menons une étude préliminaire basée sur un signal 1D et relions nos observations aux scénarios 3D, où l'optimisation naïve conjointe de la pose sur des NeRF basés sur des voxels peut facilement conduire à des solutions sous-optimales. De plus, en nous appuyant sur l'analyse du spectre de fréquences, nous proposons d'appliquer des filtres gaussiens convolutifs sur les champs de radiance 2D et 3D pour un entraînement allant du grossier au fin, ce qui permet l'optimisation conjointe de la pose de la caméra. En exploitant la propriété de décomposition du tenseur de faible rang décomposé, notre méthode atteint un effet équivalent à celui d'une convolution 3D par force brute tout en induisant un faible surcoût computationnel. Pour améliorer davantage la robustesse et la stabilité de l'optimisation conjointe, nous proposons également des techniques de supervision 2D lissée, des paramètres de noyau aléatoirement mis à l'échelle, et un masque de perte guidé par les contours. Des évaluations quantitatives et qualitatives approfondies démontrent que notre cadre proposé atteint des performances supérieures en synthèse de nouvelles vues ainsi qu'une convergence rapide pour l'optimisation.
English
In this paper, we propose an algorithm that allows joint refinement of camera
pose and scene geometry represented by decomposed low-rank tensor, using only
2D images as supervision. First, we conduct a pilot study based on a 1D signal
and relate our findings to 3D scenarios, where the naive joint pose
optimization on voxel-based NeRFs can easily lead to sub-optimal solutions.
Moreover, based on the analysis of the frequency spectrum, we propose to apply
convolutional Gaussian filters on 2D and 3D radiance fields for a
coarse-to-fine training schedule that enables joint camera pose optimization.
Leveraging the decomposition property in decomposed low-rank tensor, our method
achieves an equivalent effect to brute-force 3D convolution with only incurring
little computational overhead. To further improve the robustness and stability
of joint optimization, we also propose techniques of smoothed 2D supervision,
randomly scaled kernel parameters, and edge-guided loss mask. Extensive
quantitative and qualitative evaluations demonstrate that our proposed
framework achieves superior performance in novel view synthesis as well as
rapid convergence for optimization.