Das Abtasten von 3D-Gaußszenen in Sekunden mit latenten Diffusionsmodellen
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models
June 18, 2024
Autoren: Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius
cs.AI
Zusammenfassung
Wir präsentieren ein latentes Diffusionsmodell über 3D-Szenen, das ausschließlich mit 2D-Bilddaten trainiert werden kann. Um dies zu erreichen, entwerfen wir zunächst einen Autoencoder, der Mehransichtsbilder auf 3D-Gaußsche Splats abbildet und gleichzeitig eine komprimierte latente Repräsentation dieser Splats erstellt. Anschließend trainieren wir ein Mehransichts-Diffusionsmodell über dem latenten Raum, um ein effizientes generatives Modell zu erlernen. Diese Pipeline erfordert weder Objektmasken noch Tiefeninformationen und eignet sich für komplexe Szenen mit beliebigen Kamerapositionen. Wir führen sorgfältige Experimente an zwei groß angelegten Datensätzen komplexer realer Szenen durch - MVImgNet und RealEstate10K. Wir zeigen, dass unser Ansatz das Generieren von 3D-Szenen in nur 0,2 Sekunden ermöglicht, entweder von Grund auf, aus einer einzelnen Eingangsansicht oder aus spärlichen Eingangsansichten. Er liefert vielfältige und qualitativ hochwertige Ergebnisse und läuft dabei um eine Größenordnung schneller als nicht-latente Diffusionsmodelle und frühere NeRF-basierte generative Modelle.
English
We present a latent diffusion model over 3D scenes, that can be trained using
only 2D image data. To achieve this, we first design an autoencoder that maps
multi-view images to 3D Gaussian splats, and simultaneously builds a compressed
latent representation of these splats. Then, we train a multi-view diffusion
model over the latent space to learn an efficient generative model. This
pipeline does not require object masks nor depths, and is suitable for complex
scenes with arbitrary camera positions. We conduct careful experiments on two
large-scale datasets of complex real-world scenes -- MVImgNet and
RealEstate10K. We show that our approach enables generating 3D scenes in as
little as 0.2 seconds, either from scratch, from a single input view, or from
sparse input views. It produces diverse and high-quality results while running
an order of magnitude faster than non-latent diffusion models and earlier
NeRF-based generative modelsSummary
AI-Generated Summary