Sat3DGen: Geração Abrangente de Cenas 3D ao Nível da Rua a partir de uma Única Imagem de Satélite

Resumo

Gerar uma cena 3D ao nível da rua a partir de uma única imagem de satélite é uma tarefa crucial, porém desafiadora. Os métodos atuais apresentam uma nítida troca: modelos de colorização geométrica alcançam alta fidelidade geométrica, mas geralmente são focados em edifícios e carecem de diversidade semântica. Em contraste, modelos baseados em proxies utilizam estruturas feed-forward de imagem para 3D para gerar cenas holísticas por meio do aprendizado conjunto de geometria e textura, um processo que produz conteúdo rico, mas geometria grosseira e instável. Atribuímos essas falhas geométricas à extrema lacuna de ponto de vista e à supervisão esparsa e inconsistente inerente aos dados de satélite para rua. Apresentamos o Sat3DGen para enfrentar esses desafios fundamentais, que incorpora uma metodologia de primeira geometria. Essa metodologia aprimora o paradigma feed-forward integrando novas restrições geométricas com uma estratégia de treinamento em perspectiva, combatendo explicitamente as principais fontes de erro geométrico. Essa estratégia centrada em geometria resulta em um salto dramático tanto na precisão 3D quanto no fotorrealismo. Para validação, primeiro construímos um novo benchmark pareando o conjunto de teste VIGOR-OOD com dados DSM de alta resolução. Nesse benchmark, nosso método melhora o RMSE geométrico de 6,76m para 5,20m. Crucialmente, esse salto geométrico também impulsiona o fotorrealismo, reduzindo a Distância Inception de Fréchet (FID) de sim40 para 19 em relação ao método líder, Sat2Density++, apesar de não usar módulos extras de qualidade de imagem. Demonstramos a versatilidade de nossos ativos 3D de alta qualidade por meio de diversas aplicações downstream, incluindo síntese de mapa semântico para 3D, geração de vídeo multicâmera, malhamento em larga escala e estimativa não supervisionada de Modelo Digital de Superfície (DSM) a partir de imagem única. O código foi disponibilizado em https://github.com/qianmingduowan/Sat3DGen.

English

Generating a street-level 3D scene from a single satellite image is a crucial yet challenging task. Current methods present a stark trade-off: geometry-colorization models achieve high geometric fidelity but are typically building-focused and lack semantic diversity. In contrast, proxy-based models use feed-forward image-to-3D frameworks to generate holistic scenes by jointly learning geometry and texture, a process that yields rich content but coarse and unstable geometry. We attribute these geometric failures to the extreme viewpoint gap and sparse, inconsistent supervision inherent in satellite-to-street data. We introduce Sat3DGen to address these fundamental challenges, which embodies a geometry-first methodology. This methodology enhances the feed-forward paradigm by integrating novel geometric constraints with a perspective-view training strategy, explicitly countering the primary sources of geometric error. This geometry-centric strategy yields a dramatic leap in both 3D accuracy and photorealism. For validation, we first constructed a new benchmark by pairing the VIGOR-OOD test set with high-resolution DSM data. On this benchmark, our method improves geometric RMSE from 6.76m to 5.20m. Crucially, this geometric leap also boosts photorealism, reducing the Fréchet Inception Distance (FID) from sim40 to 19 against the leading method, Sat2Density++, despite using no extra tailored image-quality modules. We demonstrate the versatility of our high-quality 3D assets through diverse downstream applications, including semantic-map-to-3D synthesis, multi-camera video generation, large-scale meshing, and unsupervised single-image Digital Surface Model (DSM) estimation. The code has been released on https://github.com/qianmingduowan/Sat3DGen.