CARFF: Campo de Radiação Codificado Automaticamente Condicional para Previsão de Cenas 3D
CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
January 31, 2024
Autores: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez
cs.AI
Resumo
Propomos o CARFF: Campo de Radiação Condicional Codificado Automaticamente para Previsão de Cenas 3D, um método para prever cenas 3D futuras com base em observações passadas, como imagens egocêntricas 2D. Nosso método mapeia uma imagem para uma distribuição sobre configurações latentes plausíveis de cenas 3D usando um codificador probabilístico e prevê a evolução das cenas hipotetizadas ao longo do tempo. Nossa representação latente de cena condiciona um Campo de Radiação Neural (NeRF) global para representar um modelo de cena 3D, o que permite previsões explicáveis e aplicações diretas em tarefas subsequentes. Essa abordagem vai além de trabalhos anteriores em renderização neural ao considerar cenários complexos de incerteza em estados e dinâmicas ambientais. Empregamos um treinamento em duas etapas de um VAE Condicionado à Pose e um NeRF para aprender representações 3D. Além disso, prevemos de forma autorregressiva as representações latentes de cena como um processo de decisão de Markov parcialmente observável, utilizando uma rede de densidade mista. Demonstramos a utilidade do nosso método em cenários realistas usando o simulador de direção CARLA, onde o CARFF pode ser utilizado para permitir planejamento eficiente de trajetórias e contingências em cenários complexos de direção autônoma multiagente envolvendo oclusões visuais.
English
We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene
Forecasting, a method for predicting future 3D scenes given past observations,
such as 2D ego-centric images. Our method maps an image to a distribution over
plausible 3D latent scene configurations using a probabilistic encoder, and
predicts the evolution of the hypothesized scenes through time. Our latent
scene representation conditions a global Neural Radiance Field (NeRF) to
represent a 3D scene model, which enables explainable predictions and
straightforward downstream applications. This approach extends beyond previous
neural rendering work by considering complex scenarios of uncertainty in
environmental states and dynamics. We employ a two-stage training of
Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we
auto-regressively predict latent scene representations as a partially
observable Markov decision process, utilizing a mixture density network. We
demonstrate the utility of our method in realistic scenarios using the CARLA
driving simulator, where CARFF can be used to enable efficient trajectory and
contingency planning in complex multi-agent autonomous driving scenarios
involving visual occlusions.