CARFF: Bedingtes auto-kodiertes Strahlungsfeld für die 3D-Szenenvorhersage

papers.abstract

Wir präsentieren CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, eine Methode zur Vorhersage zukünftiger 3D-Szenen basierend auf vergangenen Beobachtungen, wie beispielsweise 2D-egozentrischen Bildern. Unsere Methode bildet ein Bild auf eine Verteilung über plausible 3D-latente Szenenkonfigurationen ab, indem ein probabilistischer Encoder verwendet wird, und sagt die Entwicklung der hypothetisierten Szenen über die Zeit voraus. Unsere latente Szenendarstellung konditioniert ein globales Neural Radiance Field (NeRF), um ein 3D-Szenenmodell darzustellen, was erklärbare Vorhersagen und unkomplizierte nachgelagerte Anwendungen ermöglicht. Dieser Ansatz geht über bisherige Arbeiten im Bereich des neuronalen Renderings hinaus, indem komplexe Szenarien von Unsicherheiten in Umweltzuständen und -dynamiken berücksichtigt werden. Wir verwenden ein zweistufiges Training von Pose-Conditional-VAE und NeRF, um 3D-Darstellungen zu erlernen. Zusätzlich sagen wir latente Szenendarstellungen autoregressiv als teilweise beobachtbaren Markov-Entscheidungsprozess voraus, wobei ein Mixture Density Network eingesetzt wird. Wir demonstrieren den Nutzen unserer Methode in realistischen Szenarien mithilfe des CARLA-Fahrsimulators, wo CARFF verwendet werden kann, um effiziente Trajektorien- und Notfallplanung in komplexen Multi-Agenten-Szenarien des autonomen Fahrens mit visuellen Verdeckungen zu ermöglichen.

English

We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, a method for predicting future 3D scenes given past observations, such as 2D ego-centric images. Our method maps an image to a distribution over plausible 3D latent scene configurations using a probabilistic encoder, and predicts the evolution of the hypothesized scenes through time. Our latent scene representation conditions a global Neural Radiance Field (NeRF) to represent a 3D scene model, which enables explainable predictions and straightforward downstream applications. This approach extends beyond previous neural rendering work by considering complex scenarios of uncertainty in environmental states and dynamics. We employ a two-stage training of Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we auto-regressively predict latent scene representations as a partially observable Markov decision process, utilizing a mixture density network. We demonstrate the utility of our method in realistic scenarios using the CARLA driving simulator, where CARFF can be used to enable efficient trajectory and contingency planning in complex multi-agent autonomous driving scenarios involving visual occlusions.