CARFF : Champ de Radiance Auto-encodé Conditionnel pour la Prédiction de Scènes 3D
CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
January 31, 2024
Auteurs: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez
cs.AI
Résumé
Nous proposons CARFF : Conditional Auto-encoded Radiance Field pour la prévision de scènes 3D, une méthode permettant de prédire des scènes 3D futures à partir d'observations passées, telles que des images 2D égocentriques. Notre méthode associe une image à une distribution sur des configurations latentes plausibles de scènes 3D à l'aide d'un encodeur probabiliste, et prédit l'évolution des scènes hypothétiques au fil du temps. Notre représentation latente de la scène conditionne un Neural Radiance Field (NeRF) global pour modéliser une scène 3D, ce qui permet des prédictions explicables et des applications en aval directes. Cette approche va au-delà des travaux précédents en rendu neuronal en prenant en compte des scénarios complexes d'incertitude dans les états et la dynamique de l'environnement. Nous utilisons un entraînement en deux étapes d'un Pose-Conditional-VAE et d'un NeRF pour apprendre des représentations 3D. De plus, nous prédisons de manière auto-régressive les représentations latentes des scènes comme un processus de décision markovien partiellement observable, en exploitant un réseau de densité mixte. Nous démontrons l'utilité de notre méthode dans des scénarios réalistes à l'aide du simulateur de conduite CARLA, où CARFF peut être utilisé pour permettre une planification efficace des trajectoires et des contingences dans des scénarios complexes de conduite autonome multi-agents impliquant des occlusions visuelles.
English
We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene
Forecasting, a method for predicting future 3D scenes given past observations,
such as 2D ego-centric images. Our method maps an image to a distribution over
plausible 3D latent scene configurations using a probabilistic encoder, and
predicts the evolution of the hypothesized scenes through time. Our latent
scene representation conditions a global Neural Radiance Field (NeRF) to
represent a 3D scene model, which enables explainable predictions and
straightforward downstream applications. This approach extends beyond previous
neural rendering work by considering complex scenarios of uncertainty in
environmental states and dynamics. We employ a two-stage training of
Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we
auto-regressively predict latent scene representations as a partially
observable Markov decision process, utilizing a mixture density network. We
demonstrate the utility of our method in realistic scenarios using the CARLA
driving simulator, where CARFF can be used to enable efficient trajectory and
contingency planning in complex multi-agent autonomous driving scenarios
involving visual occlusions.