CARFF: Bedingtes auto-kodiertes Strahlungsfeld für die 3D-Szenenvorhersage
CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
January 31, 2024
Autoren: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez
cs.AI
Zusammenfassung
Wir präsentieren CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, eine Methode zur Vorhersage zukünftiger 3D-Szenen basierend auf vergangenen Beobachtungen, wie beispielsweise 2D-egozentrischen Bildern. Unsere Methode bildet ein Bild auf eine Verteilung über plausible 3D-latente Szenenkonfigurationen ab, indem ein probabilistischer Encoder verwendet wird, und sagt die Entwicklung der hypothetisierten Szenen über die Zeit voraus. Unsere latente Szenendarstellung konditioniert ein globales Neural Radiance Field (NeRF), um ein 3D-Szenenmodell darzustellen, was erklärbare Vorhersagen und unkomplizierte nachgelagerte Anwendungen ermöglicht. Dieser Ansatz geht über bisherige Arbeiten im Bereich des neuronalen Renderings hinaus, indem komplexe Szenarien von Unsicherheiten in Umweltzuständen und -dynamiken berücksichtigt werden. Wir verwenden ein zweistufiges Training von Pose-Conditional-VAE und NeRF, um 3D-Darstellungen zu erlernen. Zusätzlich sagen wir latente Szenendarstellungen autoregressiv als teilweise beobachtbaren Markov-Entscheidungsprozess voraus, wobei ein Mixture Density Network eingesetzt wird. Wir demonstrieren den Nutzen unserer Methode in realistischen Szenarien mithilfe des CARLA-Fahrsimulators, wo CARFF verwendet werden kann, um effiziente Trajektorien- und Notfallplanung in komplexen Multi-Agenten-Szenarien des autonomen Fahrens mit visuellen Verdeckungen zu ermöglichen.
English
We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene
Forecasting, a method for predicting future 3D scenes given past observations,
such as 2D ego-centric images. Our method maps an image to a distribution over
plausible 3D latent scene configurations using a probabilistic encoder, and
predicts the evolution of the hypothesized scenes through time. Our latent
scene representation conditions a global Neural Radiance Field (NeRF) to
represent a 3D scene model, which enables explainable predictions and
straightforward downstream applications. This approach extends beyond previous
neural rendering work by considering complex scenarios of uncertainty in
environmental states and dynamics. We employ a two-stage training of
Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we
auto-regressively predict latent scene representations as a partially
observable Markov decision process, utilizing a mixture density network. We
demonstrate the utility of our method in realistic scenarios using the CARLA
driving simulator, where CARFF can be used to enable efficient trajectory and
contingency planning in complex multi-agent autonomous driving scenarios
involving visual occlusions.