Sat3DGen: Umfassende 3D-Szenengenerierung auf Straßenebene aus einem einzigen Satellitenbild

Zusammenfassung

Die Erzeugung einer 3D-Szene auf Straßenebene aus einem einzelnen Satellitenbild ist eine entscheidende, aber anspruchsvolle Aufgabe. Aktuelle Methoden zeigen einen deutlichen Zielkonflikt: Geometrie-Kolorierungsmodelle erreichen eine hohe geometrische Genauigkeit, sind jedoch typischerweise auf Gebäude fokussiert und weisen keine semantische Vielfalt auf. Im Gegensatz dazu nutzen Proxy-basierte Modelle Feed-Forward-Bild-zu-3D-Frameworks, um ganzheitliche Szenen durch gemeinsames Lernen von Geometrie und Textur zu erzeugen – ein Prozess, der reichhaltige Inhalte, aber grobe und instabile Geometrie liefert. Wir führen diese geometrischen Fehler auf die extreme Blickwinkellücke und die spärliche, inkonsistente Überwachung zurück, die Satelliten-zu-Straße-Daten innewohnen. Wir stellen Sat3DGen vor, um diese grundlegenden Herausforderungen anzugehen, das eine Geometrie-zuerst-Methodik verkörpert. Diese Methodik verbessert das Feed-Forward-Paradigma, indem sie neuartige geometrische Randbedingungen mit einer Perspektivenansicht-Trainingsstrategie integriert und explizit den Hauptquellen geometrischer Fehler entgegenwirkt. Diese geometriezentrierte Strategie führt zu einem dramatischen Sprung sowohl in der 3D-Genauigkeit als auch im Fotorealismus. Zur Validierung haben wir zunächst einen neuen Benchmark erstellt, indem wir den VIGOR-OOD-Testdatensatz mit hochauflösenden DSM-Daten kombiniert haben. In diesem Benchmark verbessert unsere Methode den geometrischen RMSE von 6,76 m auf 5,20 m. Entscheidend ist, dass dieser geometrische Sprung auch den Fotorealismus steigert und die Fréchet Inception Distance (FID) von 40 auf 19 im Vergleich zur führenden Methode Sat2Density++ reduziert, obwohl keine zusätzlich maßgeschneiderten Bildqualitätsmodule verwendet werden. Wir demonstrieren die Vielseitigkeit unserer hochwertigen 3D-Assets durch verschiedene nachgelagerte Anwendungen, darunter semantische Karte-zu-3D-Synthese, Multi-Kamera-Videogenerierung, großflächige Vernetzung und unüberwachte Einzelbild-Digital Surface Model (DSM)-Schätzung. Der Code wurde auf https://github.com/qianmingduowan/Sat3DGen veröffentlicht.

English

Generating a street-level 3D scene from a single satellite image is a crucial yet challenging task. Current methods present a stark trade-off: geometry-colorization models achieve high geometric fidelity but are typically building-focused and lack semantic diversity. In contrast, proxy-based models use feed-forward image-to-3D frameworks to generate holistic scenes by jointly learning geometry and texture, a process that yields rich content but coarse and unstable geometry. We attribute these geometric failures to the extreme viewpoint gap and sparse, inconsistent supervision inherent in satellite-to-street data. We introduce Sat3DGen to address these fundamental challenges, which embodies a geometry-first methodology. This methodology enhances the feed-forward paradigm by integrating novel geometric constraints with a perspective-view training strategy, explicitly countering the primary sources of geometric error. This geometry-centric strategy yields a dramatic leap in both 3D accuracy and photorealism. For validation, we first constructed a new benchmark by pairing the VIGOR-OOD test set with high-resolution DSM data. On this benchmark, our method improves geometric RMSE from 6.76m to 5.20m. Crucially, this geometric leap also boosts photorealism, reducing the Fréchet Inception Distance (FID) from sim40 to 19 against the leading method, Sat2Density++, despite using no extra tailored image-quality modules. We demonstrate the versatility of our high-quality 3D assets through diverse downstream applications, including semantic-map-to-3D synthesis, multi-camera video generation, large-scale meshing, and unsupervised single-image Digital Surface Model (DSM) estimation. The code has been released on https://github.com/qianmingduowan/Sat3DGen.