CARFF: Conditioneel Auto-gecodeerd Radiance Veld voor 3D-scènevoorspelling
CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
January 31, 2024
Auteurs: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez
cs.AI
Samenvatting
Wij stellen CARFF voor: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, een methode voor het voorspellen van toekomstige 3D-scènes op basis van eerdere observaties, zoals 2D ego-centrische beelden. Onze methode vertaalt een afbeelding naar een verdeling over plausibele 3D latente scèneconfiguraties met behulp van een probabilistische encoder, en voorspelt de evolutie van de veronderstelde scènes door de tijd heen. Onze latente scènevoorstelling conditioneert een globaal Neural Radiance Field (NeRF) om een 3D-scènemodel te representeren, wat verklaarbare voorspellingen en eenvoudige downstream toepassingen mogelijk maakt. Deze benadering gaat verder dan eerder werk op het gebied van neurale rendering door complexe scenario's van onzekerheid in omgevingsstatussen en dynamiek te overwegen. Wij gebruiken een tweefasige training van Pose-Conditional-VAE en NeRF om 3D-representaties te leren. Daarnaast voorspellen wij auto-regressief latente scènevoorstellingen als een gedeeltelijk waarneembaar Markov-beslissingsproces, waarbij gebruik wordt gemaakt van een mixture density network. Wij demonstreren de bruikbaarheid van onze methode in realistische scenario's met behulp van de CARLA-rijsimulator, waar CARFF kan worden ingezet voor efficiënte traject- en noodplanning in complexe multi-agent autonome rijsituaties met visuele occlusies.
English
We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene
Forecasting, a method for predicting future 3D scenes given past observations,
such as 2D ego-centric images. Our method maps an image to a distribution over
plausible 3D latent scene configurations using a probabilistic encoder, and
predicts the evolution of the hypothesized scenes through time. Our latent
scene representation conditions a global Neural Radiance Field (NeRF) to
represent a 3D scene model, which enables explainable predictions and
straightforward downstream applications. This approach extends beyond previous
neural rendering work by considering complex scenarios of uncertainty in
environmental states and dynamics. We employ a two-stage training of
Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we
auto-regressively predict latent scene representations as a partially
observable Markov decision process, utilizing a mixture density network. We
demonstrate the utility of our method in realistic scenarios using the CARLA
driving simulator, where CARFF can be used to enable efficient trajectory and
contingency planning in complex multi-agent autonomous driving scenarios
involving visual occlusions.