CARFF: Campo de Radiancia Codificado Automáticamente Condicional para la Predicción de Escenas 3D
CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
January 31, 2024
Autores: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez
cs.AI
Resumen
Proponemos CARFF: Campo de Radiancia Codificado Automáticamente Condicional para la Predicción de Escenas 3D, un método para predecir escenas 3D futuras a partir de observaciones pasadas, como imágenes egocéntricas en 2D. Nuestro método mapea una imagen a una distribución sobre configuraciones latentes plausibles de escenas 3D utilizando un codificador probabilístico, y predice la evolución de las escenas hipotetizadas a lo largo del tiempo. Nuestra representación latente de la escena condiciona un Campo de Radiancia Neuronal (NeRF) global para representar un modelo de escena 3D, lo que permite predicciones explicables y aplicaciones posteriores directas. Este enfoque va más allá del trabajo previo en renderizado neuronal al considerar escenarios complejos de incertidumbre en los estados y dinámicas del entorno. Empleamos un entrenamiento en dos etapas de un VAE Condicional a la Pose y un NeRF para aprender representaciones 3D. Además, predecimos auto-regresivamente las representaciones latentes de la escena como un proceso de decisión de Markov parcialmente observable, utilizando una red de densidad mixta. Demostramos la utilidad de nuestro método en escenarios realistas utilizando el simulador de conducción CARLA, donde CARFF puede usarse para habilitar una planificación eficiente de trayectorias y contingencias en escenarios complejos de conducción autónoma multiagente que involucran oclusiones visuales.
English
We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene
Forecasting, a method for predicting future 3D scenes given past observations,
such as 2D ego-centric images. Our method maps an image to a distribution over
plausible 3D latent scene configurations using a probabilistic encoder, and
predicts the evolution of the hypothesized scenes through time. Our latent
scene representation conditions a global Neural Radiance Field (NeRF) to
represent a 3D scene model, which enables explainable predictions and
straightforward downstream applications. This approach extends beyond previous
neural rendering work by considering complex scenarios of uncertainty in
environmental states and dynamics. We employ a two-stage training of
Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we
auto-regressively predict latent scene representations as a partially
observable Markov decision process, utilizing a mixture density network. We
demonstrate the utility of our method in realistic scenarios using the CARLA
driving simulator, where CARFF can be used to enable efficient trajectory and
contingency planning in complex multi-agent autonomous driving scenarios
involving visual occlusions.