ICON : CONfidence Incrémentale pour l'Optimisation Conjointe de la Pose et du Champ de Radiance
ICON: Incremental CONfidence for Joint Pose and Radiance Field Optimization
January 17, 2024
Auteurs: Weiyao Wang, Pierre Gleize, Hao Tang, Xingyu Chen, Kevin J Liang, Matt Feiszli
cs.AI
Résumé
Les Champs de Radiance Neuronaux (NeRF) démontrent des performances remarquables pour la Synthèse de Nouvelles Vues (NVS) à partir d'un ensemble d'images 2D. Cependant, l'entraînement des NeRF nécessite des poses de caméra précises pour chaque vue d'entrée, généralement obtenues par des pipelines de Structure-from-Motion (SfM). Des travaux récents ont tenté de relâcher cette contrainte, mais ils reposent souvent sur des poses initiales décentes qu'ils peuvent affiner. Ici, nous visons à éliminer l'exigence d'initialisation des poses. Nous présentons ICON (Incremental CONfidence), une procédure d'optimisation pour entraîner les NeRF à partir de séquences vidéo 2D. ICON suppose uniquement un mouvement de caméra fluide pour estimer une estimation initiale des poses. De plus, ICON introduit la notion de « confiance » : une mesure adaptative de la qualité du modèle utilisée pour pondérer dynamiquement les gradients. ICON s'appuie sur des poses de haute confiance pour apprendre le NeRF, et sur une structure 3D de haute confiance (telle qu'encodée par le NeRF) pour apprendre les poses. Nous montrons qu'ICON, sans initialisation préalable des poses, obtient des performances supérieures à la fois sur CO3D et HO3D par rapport aux méthodes utilisant les poses SfM.
English
Neural Radiance Fields (NeRF) exhibit remarkable performance for Novel View
Synthesis (NVS) given a set of 2D images. However, NeRF training requires
accurate camera pose for each input view, typically obtained by
Structure-from-Motion (SfM) pipelines. Recent works have attempted to relax
this constraint, but they still often rely on decent initial poses which they
can refine. Here we aim at removing the requirement for pose initialization. We
present Incremental CONfidence (ICON), an optimization procedure for training
NeRFs from 2D video frames. ICON only assumes smooth camera motion to estimate
initial guess for poses. Further, ICON introduces ``confidence": an adaptive
measure of model quality used to dynamically reweight gradients. ICON relies on
high-confidence poses to learn NeRF, and high-confidence 3D structure (as
encoded by NeRF) to learn poses. We show that ICON, without prior pose
initialization, achieves superior performance in both CO3D and HO3D versus
methods which use SfM pose.