Sat3DGen : Génération complète de scènes 3D au niveau de la rue à partir d'une seule image satellite

Résumé

La génération d'une scène 3D au niveau de la rue à partir d'une seule image satellite est une tâche cruciale mais difficile. Les méthodes actuelles présentent un compromis marqué : les modèles de géométrie-colorisation atteignent une haute fidélité géométrique mais sont généralement centrés sur les bâtiments et manquent de diversité sémantique. En revanche, les modèles basés sur des proxies utilisent des cadres image-à-3D par feed-forward pour générer des scènes holistiques en apprenant conjointement la géométrie et la texture, un processus qui produit un contenu riche mais une géométrie grossière et instable. Nous attribuons ces échecs géométriques à l'écart de point de vue extrême et à la supervision éparse et inconsistante inhérente aux données satellite-vers-rue. Nous introduisons Sat3DGen pour relever ces défis fondamentaux, en incarnant une méthodologie géométrie d'abord. Cette méthodologie enrichit le paradigme feed-forward en intégrant des contraintes géométriques novatrices avec une stratégie d'entraînement en vue perspective, contrant explicitement les sources principales d'erreur géométrique. Cette stratégie centrée sur la géométrie conduit à un bond spectaculaire tant en précision 3D qu'en photoréalisme. Pour la validation, nous avons d'abord construit un nouveau référentiel en associant l'ensemble de test VIGOR-OOD à des données MNS haute résolution. Sur ce référentiel, notre méthode améliore l'erreur quadratique moyenne géométrique (RMSE) de 6,76 m à 5,20 m. Crucialement, ce bond géométrique booste également le photoréalisme, réduisant la distance de Fréchet par inception (FID) de sim40 à 19 par rapport à la méthode de référence, Sat2Density++, sans utiliser de modules supplémentaires dédiés à la qualité d'image. Nous démontrons la polyvalence de nos actifs 3D de haute qualité à travers diverses applications en aval, notamment la synthèse sémantique-carte-vers-3D, la génération vidéo multi-caméra, le maillage à grande échelle et l'estimation non supervisée de modèle numérique de surface (MNS) à partir d'une seule image. Le code a été publié sur https://github.com/qianmingduowan/Sat3DGen.

English

Generating a street-level 3D scene from a single satellite image is a crucial yet challenging task. Current methods present a stark trade-off: geometry-colorization models achieve high geometric fidelity but are typically building-focused and lack semantic diversity. In contrast, proxy-based models use feed-forward image-to-3D frameworks to generate holistic scenes by jointly learning geometry and texture, a process that yields rich content but coarse and unstable geometry. We attribute these geometric failures to the extreme viewpoint gap and sparse, inconsistent supervision inherent in satellite-to-street data. We introduce Sat3DGen to address these fundamental challenges, which embodies a geometry-first methodology. This methodology enhances the feed-forward paradigm by integrating novel geometric constraints with a perspective-view training strategy, explicitly countering the primary sources of geometric error. This geometry-centric strategy yields a dramatic leap in both 3D accuracy and photorealism. For validation, we first constructed a new benchmark by pairing the VIGOR-OOD test set with high-resolution DSM data. On this benchmark, our method improves geometric RMSE from 6.76m to 5.20m. Crucially, this geometric leap also boosts photorealism, reducing the Fréchet Inception Distance (FID) from sim40 to 19 against the leading method, Sat2Density++, despite using no extra tailored image-quality modules. We demonstrate the versatility of our high-quality 3D assets through diverse downstream applications, including semantic-map-to-3D synthesis, multi-camera video generation, large-scale meshing, and unsupervised single-image Digital Surface Model (DSM) estimation. The code has been released on https://github.com/qianmingduowan/Sat3DGen.