CARFF: Campo de Radiação Codificado Automaticamente Condicional para Previsão de Cenas 3D

Resumo

Propomos o CARFF: Campo de Radiação Condicional Codificado Automaticamente para Previsão de Cenas 3D, um método para prever cenas 3D futuras com base em observações passadas, como imagens egocêntricas 2D. Nosso método mapeia uma imagem para uma distribuição sobre configurações latentes plausíveis de cenas 3D usando um codificador probabilístico e prevê a evolução das cenas hipotetizadas ao longo do tempo. Nossa representação latente de cena condiciona um Campo de Radiação Neural (NeRF) global para representar um modelo de cena 3D, o que permite previsões explicáveis e aplicações diretas em tarefas subsequentes. Essa abordagem vai além de trabalhos anteriores em renderização neural ao considerar cenários complexos de incerteza em estados e dinâmicas ambientais. Empregamos um treinamento em duas etapas de um VAE Condicionado à Pose e um NeRF para aprender representações 3D. Além disso, prevemos de forma autorregressiva as representações latentes de cena como um processo de decisão de Markov parcialmente observável, utilizando uma rede de densidade mista. Demonstramos a utilidade do nosso método em cenários realistas usando o simulador de direção CARLA, onde o CARFF pode ser utilizado para permitir planejamento eficiente de trajetórias e contingências em cenários complexos de direção autônoma multiagente envolvendo oclusões visuais.

English

We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, a method for predicting future 3D scenes given past observations, such as 2D ego-centric images. Our method maps an image to a distribution over plausible 3D latent scene configurations using a probabilistic encoder, and predicts the evolution of the hypothesized scenes through time. Our latent scene representation conditions a global Neural Radiance Field (NeRF) to represent a 3D scene model, which enables explainable predictions and straightforward downstream applications. This approach extends beyond previous neural rendering work by considering complex scenarios of uncertainty in environmental states and dynamics. We employ a two-stage training of Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we auto-regressively predict latent scene representations as a partially observable Markov decision process, utilizing a mixture density network. We demonstrate the utility of our method in realistic scenarios using the CARLA driving simulator, where CARFF can be used to enable efficient trajectory and contingency planning in complex multi-agent autonomous driving scenarios involving visual occlusions.