CARFF: Campo di Radianza con Auto-Codifica Condizionata per la Previsione di Scene 3D
CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
January 31, 2024
Autori: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez
cs.AI
Abstract
Proponiamo CARFF: Conditional Auto-encoded Radiance Field per la previsione di scene 3D, un metodo per prevedere scene 3D future date osservazioni passate, come immagini egocentriche 2D. Il nostro metodo mappa un'immagine a una distribuzione su configurazioni latenti 3D plausibili utilizzando un encoder probabilistico e prevede l'evoluzione delle scene ipotizzate nel tempo. La nostra rappresentazione latente della scene condiziona un Neural Radiance Field (NeRF) globale per rappresentare un modello di scena 3D, che consente previsioni spiegabili e applicazioni downstream dirette. Questo approccio va oltre il precedente lavoro sul rendering neurale considerando scenari complessi di incertezza negli stati e nelle dinamiche ambientali. Utilizziamo un addestramento in due fasi di Pose-Conditional-VAE e NeRF per apprendere rappresentazioni 3D. Inoltre, prevediamo autoregressivamente le rappresentazioni latenti delle scene come un processo decisionale di Markov parzialmente osservabile, sfruttando una rete a densità mista. Dimostriamo l'utilità del nostro metodo in scenari realistici utilizzando il simulatore di guida CARLA, dove CARFF può essere utilizzato per abilitare una pianificazione efficiente delle traiettorie e delle contingenze in complessi scenari di guida autonoma multi-agente che coinvolgono occlusioni visive.
English
We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene
Forecasting, a method for predicting future 3D scenes given past observations,
such as 2D ego-centric images. Our method maps an image to a distribution over
plausible 3D latent scene configurations using a probabilistic encoder, and
predicts the evolution of the hypothesized scenes through time. Our latent
scene representation conditions a global Neural Radiance Field (NeRF) to
represent a 3D scene model, which enables explainable predictions and
straightforward downstream applications. This approach extends beyond previous
neural rendering work by considering complex scenarios of uncertainty in
environmental states and dynamics. We employ a two-stage training of
Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we
auto-regressively predict latent scene representations as a partially
observable Markov decision process, utilizing a mixture density network. We
demonstrate the utility of our method in realistic scenarios using the CARLA
driving simulator, where CARFF can be used to enable efficient trajectory and
contingency planning in complex multi-agent autonomous driving scenarios
involving visual occlusions.