PlatoNeRF : Reconstruction 3D dans la caverne de Platon via un Lidar à simple vue et double rebond
PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidar
December 21, 2023
Auteurs: Tzofi Klinghoffer, Xiaoyu Xiang, Siddharth Somasundaram, Yuchen Fan, Christian Richardt, Ramesh Raskar, Rakesh Ranjan
cs.AI
Résumé
La reconstruction 3D à partir d'une vue unique est un défi en raison de l'ambiguïté des indices monoculaires et du manque d'informations sur les régions occluses. Les champs de radiance neuronaux (NeRF), bien que populaires pour la synthèse de vues et la reconstruction 3D, reposent généralement sur des images multi-vues. Les méthodes existantes pour la reconstruction 3D à vue unique avec NeRF s'appuient soit sur des a priori de données pour deviner les vues des régions occluses, ce qui peut ne pas être physiquement précis, soit sur les ombres observées par des caméras RGB, qui sont difficiles à détecter dans des conditions d'éclairage ambiant et des fonds à faible albédo. Nous proposons d'utiliser des données de temps de vol capturées par une diode à avalanche à photon unique pour surmonter ces limitations. Notre méthode modélise les trajets optiques à deux rebonds avec NeRF, en utilisant les données transitoires du lidar pour la supervision. En tirant parti des avantages à la fois de NeRF et de la lumière à deux rebonds mesurée par le lidar, nous démontrons que nous pouvons reconstruire la géométrie visible et occluse sans a priori de données ni dépendance à un éclairage ambiant contrôlé ou à l'albédo de la scène. De plus, nous montrons une amélioration de la généralisation sous des contraintes pratiques de résolution spatiale et temporelle des capteurs. Nous pensons que notre méthode est une direction prometteuse à mesure que les lidars à photon unique deviennent omniprésents sur les appareils grand public, tels que les téléphones, tablettes et casques.
English
3D reconstruction from a single-view is challenging because of the ambiguity
from monocular cues and lack of information about occluded regions. Neural
radiance fields (NeRF), while popular for view synthesis and 3D reconstruction,
are typically reliant on multi-view images. Existing methods for single-view 3D
reconstruction with NeRF rely on either data priors to hallucinate views of
occluded regions, which may not be physically accurate, or shadows observed by
RGB cameras, which are difficult to detect in ambient light and low albedo
backgrounds. We propose using time-of-flight data captured by a single-photon
avalanche diode to overcome these limitations. Our method models two-bounce
optical paths with NeRF, using lidar transient data for supervision. By
leveraging the advantages of both NeRF and two-bounce light measured by lidar,
we demonstrate that we can reconstruct visible and occluded geometry without
data priors or reliance on controlled ambient lighting or scene albedo. In
addition, we demonstrate improved generalization under practical constraints on
sensor spatial- and temporal-resolution. We believe our method is a promising
direction as single-photon lidars become ubiquitous on consumer devices, such
as phones, tablets, and headsets.