ChatPaper.aiChatPaper

CARFF: Conditioneel Auto-gecodeerd Radiance Veld voor 3D-scènevoorspelling

CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting

January 31, 2024
Auteurs: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez
cs.AI

Samenvatting

Wij stellen CARFF voor: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, een methode voor het voorspellen van toekomstige 3D-scènes op basis van eerdere observaties, zoals 2D ego-centrische beelden. Onze methode vertaalt een afbeelding naar een verdeling over plausibele 3D latente scèneconfiguraties met behulp van een probabilistische encoder, en voorspelt de evolutie van de veronderstelde scènes door de tijd heen. Onze latente scènevoorstelling conditioneert een globaal Neural Radiance Field (NeRF) om een 3D-scènemodel te representeren, wat verklaarbare voorspellingen en eenvoudige downstream toepassingen mogelijk maakt. Deze benadering gaat verder dan eerder werk op het gebied van neurale rendering door complexe scenario's van onzekerheid in omgevingsstatussen en dynamiek te overwegen. Wij gebruiken een tweefasige training van Pose-Conditional-VAE en NeRF om 3D-representaties te leren. Daarnaast voorspellen wij auto-regressief latente scènevoorstellingen als een gedeeltelijk waarneembaar Markov-beslissingsproces, waarbij gebruik wordt gemaakt van een mixture density network. Wij demonstreren de bruikbaarheid van onze methode in realistische scenario's met behulp van de CARLA-rijsimulator, waar CARFF kan worden ingezet voor efficiënte traject- en noodplanning in complexe multi-agent autonome rijsituaties met visuele occlusies.
English
We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, a method for predicting future 3D scenes given past observations, such as 2D ego-centric images. Our method maps an image to a distribution over plausible 3D latent scene configurations using a probabilistic encoder, and predicts the evolution of the hypothesized scenes through time. Our latent scene representation conditions a global Neural Radiance Field (NeRF) to represent a 3D scene model, which enables explainable predictions and straightforward downstream applications. This approach extends beyond previous neural rendering work by considering complex scenarios of uncertainty in environmental states and dynamics. We employ a two-stage training of Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we auto-regressively predict latent scene representations as a partially observable Markov decision process, utilizing a mixture density network. We demonstrate the utility of our method in realistic scenarios using the CARLA driving simulator, where CARFF can be used to enable efficient trajectory and contingency planning in complex multi-agent autonomous driving scenarios involving visual occlusions.
PDF91February 8, 2026