ChatPaper.aiChatPaper

CARFF: Условное автоэнкодируемое поле излучения для прогнозирования 3D-сцен

CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting

January 31, 2024
Авторы: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez
cs.AI

Аннотация

Мы представляем CARFF: Условное автоэнкодируемое поле излучения для прогнозирования 3D-сцен — метод предсказания будущих 3D-сцен на основе прошлых наблюдений, таких как 2D-изображения с эгоцентрической точки зрения. Наш метод преобразует изображение в распределение по правдоподобным 3D-латентным конфигурациям сцен с использованием вероятностного энкодера и предсказывает эволюцию гипотетических сцен во времени. Наше латентное представление сцены управляет глобальным нейронным полем излучения (NeRF) для моделирования 3D-сцены, что обеспечивает объяснимые прогнозы и упрощает последующие приложения. Этот подход выходит за рамки предыдущих работ по нейронному рендерингу, учитывая сложные сценарии неопределенности в состояниях и динамике окружающей среды. Мы используем двухэтапное обучение Pose-Conditional-VAE и NeRF для изучения 3D-представлений. Кроме того, мы авторегрессивно предсказываем латентные представления сцен как частично наблюдаемый марковский процесс принятия решений, используя смесь плотностных сетей. Мы демонстрируем полезность нашего метода в реалистичных сценариях с использованием симулятора вождения CARLA, где CARFF может быть использован для эффективного планирования траекторий и действий в сложных многозадачных сценариях автономного вождения с визуальными окклюзиями.
English
We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, a method for predicting future 3D scenes given past observations, such as 2D ego-centric images. Our method maps an image to a distribution over plausible 3D latent scene configurations using a probabilistic encoder, and predicts the evolution of the hypothesized scenes through time. Our latent scene representation conditions a global Neural Radiance Field (NeRF) to represent a 3D scene model, which enables explainable predictions and straightforward downstream applications. This approach extends beyond previous neural rendering work by considering complex scenarios of uncertainty in environmental states and dynamics. We employ a two-stage training of Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we auto-regressively predict latent scene representations as a partially observable Markov decision process, utilizing a mixture density network. We demonstrate the utility of our method in realistic scenarios using the CARLA driving simulator, where CARFF can be used to enable efficient trajectory and contingency planning in complex multi-agent autonomous driving scenarios involving visual occlusions.
PDF91December 15, 2024