Sat3DGen: Generación integral de escenas 3D a nivel de calle a partir de una sola imagen satelital

Resumen

Generar una escena 3D a nivel de calle a partir de una única imagen satelital es una tarea crucial pero desafiante. Los métodos actuales presentan un marcado compromiso: los modelos de geometría-colorización logran una alta fidelidad geométrica, pero suelen centrarse en edificios y carecen de diversidad semántica. En contraste, los modelos basados en proxies emplean marcos de imagen a 3D de avance directo para generar escenas holísticas aprendiendo conjuntamente geometría y textura, un proceso que produce contenido rico pero geometría gruesa e inestable. Atribuimos estos fallos geométricos a la extrema brecha de punto de vista y a la supervisión escasa e inconsistente inherente a los datos de satélite a calle. Introducimos Sat3DGen para abordar estos desafíos fundamentales, el cual encarna una metodología de geometría primero. Esta metodología mejora el paradigma de avance directo al integrar restricciones geométricas novedosas con una estrategia de entrenamiento en vista de perspectiva, contrarrestando explícitamente las fuentes principales de error geométrico. Esta estrategia centrada en la geometría produce un salto dramático tanto en precisión 3D como en fotorrealismo. Para la validación, primero construimos un nuevo punto de referencia emparejando el conjunto de prueba VIGOR-OOD con datos DSM de alta resolución. En este punto de referencia, nuestro método mejora el RMSE geométrico de 6.76 m a 5.20 m. De manera crucial, este salto geométrico también impulsa el fotorrealismo, reduciendo la Distancia de Incepción de Fréchet (FID) de sim40 a 19 en comparación con el método líder, Sat2Density++, a pesar de no utilizar módulos adicionales de calidad de imagen adaptados. Demostramos la versatilidad de nuestros activos 3D de alta calidad a través de diversas aplicaciones posteriores, incluyendo síntesis de mapa semántico a 3D, generación de video multicámara, mallado a gran escala y estimación no supervisada de Modelo Digital de Superficie (DSM) a partir de una sola imagen. El código se ha publicado en https://github.com/qianmingduowan/Sat3DGen.

English

Generating a street-level 3D scene from a single satellite image is a crucial yet challenging task. Current methods present a stark trade-off: geometry-colorization models achieve high geometric fidelity but are typically building-focused and lack semantic diversity. In contrast, proxy-based models use feed-forward image-to-3D frameworks to generate holistic scenes by jointly learning geometry and texture, a process that yields rich content but coarse and unstable geometry. We attribute these geometric failures to the extreme viewpoint gap and sparse, inconsistent supervision inherent in satellite-to-street data. We introduce Sat3DGen to address these fundamental challenges, which embodies a geometry-first methodology. This methodology enhances the feed-forward paradigm by integrating novel geometric constraints with a perspective-view training strategy, explicitly countering the primary sources of geometric error. This geometry-centric strategy yields a dramatic leap in both 3D accuracy and photorealism. For validation, we first constructed a new benchmark by pairing the VIGOR-OOD test set with high-resolution DSM data. On this benchmark, our method improves geometric RMSE from 6.76m to 5.20m. Crucially, this geometric leap also boosts photorealism, reducing the Fréchet Inception Distance (FID) from sim40 to 19 against the leading method, Sat2Density++, despite using no extra tailored image-quality modules. We demonstrate the versatility of our high-quality 3D assets through diverse downstream applications, including semantic-map-to-3D synthesis, multi-camera video generation, large-scale meshing, and unsupervised single-image Digital Surface Model (DSM) estimation. The code has been released on https://github.com/qianmingduowan/Sat3DGen.