Das Abtasten von 3D-Gaußszenen in Sekunden mit latenten Diffusionsmodellen

Zusammenfassung

Wir präsentieren ein latentes Diffusionsmodell über 3D-Szenen, das ausschließlich mit 2D-Bilddaten trainiert werden kann. Um dies zu erreichen, entwerfen wir zunächst einen Autoencoder, der Mehransichtsbilder auf 3D-Gaußsche Splats abbildet und gleichzeitig eine komprimierte latente Repräsentation dieser Splats erstellt. Anschließend trainieren wir ein Mehransichts-Diffusionsmodell über dem latenten Raum, um ein effizientes generatives Modell zu erlernen. Diese Pipeline erfordert weder Objektmasken noch Tiefeninformationen und eignet sich für komplexe Szenen mit beliebigen Kamerapositionen. Wir führen sorgfältige Experimente an zwei groß angelegten Datensätzen komplexer realer Szenen durch - MVImgNet und RealEstate10K. Wir zeigen, dass unser Ansatz das Generieren von 3D-Szenen in nur 0,2 Sekunden ermöglicht, entweder von Grund auf, aus einer einzelnen Eingangsansicht oder aus spärlichen Eingangsansichten. Er liefert vielfältige und qualitativ hochwertige Ergebnisse und läuft dabei um eine Größenordnung schneller als nicht-latente Diffusionsmodelle und frühere NeRF-basierte generative Modelle.

English

We present a latent diffusion model over 3D scenes, that can be trained using only 2D image data. To achieve this, we first design an autoencoder that maps multi-view images to 3D Gaussian splats, and simultaneously builds a compressed latent representation of these splats. Then, we train a multi-view diffusion model over the latent space to learn an efficient generative model. This pipeline does not require object masks nor depths, and is suitable for complex scenes with arbitrary camera positions. We conduct careful experiments on two large-scale datasets of complex real-world scenes -- MVImgNet and RealEstate10K. We show that our approach enables generating 3D scenes in as little as 0.2 seconds, either from scratch, from a single input view, or from sparse input views. It produces diverse and high-quality results while running an order of magnitude faster than non-latent diffusion models and earlier NeRF-based generative models

Das Abtasten von 3D-Gaußszenen in Sekunden mit latenten Diffusionsmodellen

Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models

Zusammenfassung

Support