EarthCrafter: Skalierbare 3D-Erdgenerierung durch dual-sparse latente Diffusion
EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion
July 22, 2025
papers.authors: Shang Liu, Chenjie Cao, Chaohui Yu, Wen Qian, Jing Wang, Fan Wang
cs.AI
papers.abstract
Trotz der bemerkenswerten Fortschritte, die durch aktuelle 3D-Generierungsarbeiten erzielt wurden, bleibt die Skalierung dieser Methoden auf geografische Ausmaße, wie die Modellierung von Tausenden Quadratkilometern der Erdoberfläche, eine offene Herausforderung. Wir adressieren dies durch eine doppelte Innovation in der Dateninfrastruktur und der Modellarchitektur. Zunächst stellen wir Aerial-Earth3D vor, den bisher größten 3D-Luftbilddatensatz, der aus 50.000 kuratierten Szenen (jeweils 600m x 600m) besteht, die über das gesamte US-Festland aufgenommen wurden und 45M Multi-View-Google-Earth-Bilder umfassen. Jede Szene bietet pose-annotierte Multi-View-Bilder, Tiefenkarten, Normalen, semantische Segmentierung und Kameraposen, mit expliziter Qualitätskontrolle, um die Geländevielfalt sicherzustellen. Auf dieser Grundlage aufbauend, schlagen wir EarthCrafter vor, ein maßgeschneidertes Framework für die großflächige 3D-Erdgenerierung durch spärlich-entkoppelte latente Diffusion. Unsere Architektur trennt strukturelle und texturale Generierung: 1) Duale spärliche 3D-VAEs komprimieren hochauflösende geometrische Voxel und texturale 2D-Gaussian-Splats (2DGS) in kompakte latente Räume, wodurch die rechenintensiven Kosten bei großen geografischen Maßstäben weitgehend reduziert werden, während kritische Informationen erhalten bleiben. 2) Wir schlagen bedingungsbewusste Flow-Matching-Modelle vor, die mit gemischten Eingaben (Semantik, Bilder oder keines von beiden) trainiert werden, um latente Geometrie- und Texturmerkmale unabhängig voneinander flexibel zu modellieren. Umfangreiche Experimente zeigen, dass EarthCrafter bei extrem großflächiger Generierung deutlich besser abschneidet. Das Framework unterstützt weiterhin vielseitige Anwendungen, von semantisch gesteuerter urbaner Layout-Generierung bis hin zu bedingungsloser Geländesynthese, während es durch unsere reichhaltigen Datenpriors aus Aerial-Earth3D geografische Plausibilität bewahrt. Unsere Projektseite ist verfügbar unter https://whiteinblue.github.io/earthcrafter/.
English
Despite the remarkable developments achieved by recent 3D generation works,
scaling these methods to geographic extents, such as modeling thousands of
square kilometers of Earth's surface, remains an open challenge. We address
this through a dual innovation in data infrastructure and model architecture.
First, we introduce Aerial-Earth3D, the largest 3D aerial dataset to date,
consisting of 50k curated scenes (each measuring 600m x 600m) captured across
the U.S. mainland, comprising 45M multi-view Google Earth frames. Each scene
provides pose-annotated multi-view images, depth maps, normals, semantic
segmentation, and camera poses, with explicit quality control to ensure terrain
diversity. Building on this foundation, we propose EarthCrafter, a tailored
framework for large-scale 3D Earth generation via sparse-decoupled latent
diffusion. Our architecture separates structural and textural generation: 1)
Dual sparse 3D-VAEs compress high-resolution geometric voxels and textural 2D
Gaussian Splats (2DGS) into compact latent spaces, largely alleviating the
costly computation suffering from vast geographic scales while preserving
critical information. 2) We propose condition-aware flow matching models
trained on mixed inputs (semantics, images, or neither) to flexibly model
latent geometry and texture features independently. Extensive experiments
demonstrate that EarthCrafter performs substantially better in extremely
large-scale generation. The framework further supports versatile applications,
from semantic-guided urban layout generation to unconditional terrain
synthesis, while maintaining geographic plausibility through our rich data
priors from Aerial-Earth3D. Our project page is available at
https://whiteinblue.github.io/earthcrafter/