CARFF: Campo de Radiancia Codificado Automáticamente Condicional para la Predicción de Escenas 3D

Resumen

Proponemos CARFF: Campo de Radiancia Codificado Automáticamente Condicional para la Predicción de Escenas 3D, un método para predecir escenas 3D futuras a partir de observaciones pasadas, como imágenes egocéntricas en 2D. Nuestro método mapea una imagen a una distribución sobre configuraciones latentes plausibles de escenas 3D utilizando un codificador probabilístico, y predice la evolución de las escenas hipotetizadas a lo largo del tiempo. Nuestra representación latente de la escena condiciona un Campo de Radiancia Neuronal (NeRF) global para representar un modelo de escena 3D, lo que permite predicciones explicables y aplicaciones posteriores directas. Este enfoque va más allá del trabajo previo en renderizado neuronal al considerar escenarios complejos de incertidumbre en los estados y dinámicas del entorno. Empleamos un entrenamiento en dos etapas de un VAE Condicional a la Pose y un NeRF para aprender representaciones 3D. Además, predecimos auto-regresivamente las representaciones latentes de la escena como un proceso de decisión de Markov parcialmente observable, utilizando una red de densidad mixta. Demostramos la utilidad de nuestro método en escenarios realistas utilizando el simulador de conducción CARLA, donde CARFF puede usarse para habilitar una planificación eficiente de trayectorias y contingencias en escenarios complejos de conducción autónoma multiagente que involucran oclusiones visuales.

English

We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, a method for predicting future 3D scenes given past observations, such as 2D ego-centric images. Our method maps an image to a distribution over plausible 3D latent scene configurations using a probabilistic encoder, and predicts the evolution of the hypothesized scenes through time. Our latent scene representation conditions a global Neural Radiance Field (NeRF) to represent a 3D scene model, which enables explainable predictions and straightforward downstream applications. This approach extends beyond previous neural rendering work by considering complex scenarios of uncertainty in environmental states and dynamics. We employ a two-stage training of Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we auto-regressively predict latent scene representations as a partially observable Markov decision process, utilizing a mixture density network. We demonstrate the utility of our method in realistic scenarios using the CARLA driving simulator, where CARFF can be used to enable efficient trajectory and contingency planning in complex multi-agent autonomous driving scenarios involving visual occlusions.