CrossViewDiff : Un modèle de diffusion inter-vues pour la synthèse de vues satellite à vue de rue
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis
August 27, 2024
Auteurs: Weijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He
cs.AI
Résumé
La synthèse de vue satellite vers vue de rue vise à générer une image réaliste de vue de rue à partir de son image correspondante de vue satellite. Bien que les modèles de diffusion stables aient montré des performances remarquables dans diverses applications de génération d'images, leur dépendance à des entrées de vues similaires pour contrôler la structure ou la texture générée restreint leur application à la tâche difficile de synthèse inter-vues. Dans ce travail, nous proposons CrossViewDiff, un modèle de diffusion inter-vues pour la synthèse de vue satellite vers vue de rue. Pour relever les défis posés par les importantes disparités entre les vues, nous concevons des modules d'estimation de la structure de scène satellite et de mappage de texture inter-vues pour construire les contrôles structurels et texturaux pour la synthèse d'images de vue de rue. Nous concevons en outre un processus de débruitage guidé par un contrôle inter-vues qui intègre les contrôles ci-dessus via un module d'attention inter-vues amélioré. Pour obtenir une évaluation plus complète des résultats de synthèse, nous concevons également une méthode de notation basée sur GPT en complément des métriques d'évaluation standard. Nous explorons également l'effet de différentes sources de données (par exemple, texte, cartes, hauteurs de bâtiments et imagerie satellite multi-temporelle) sur cette tâche. Les résultats sur trois ensembles de données inter-vues publics montrent que CrossViewDiff surpasse l'état de l'art actuel à la fois en termes de métriques d'évaluation standard et basées sur GPT, générant des panoramas de vue de rue de haute qualité avec des structures et des textures plus réalistes à travers des scènes rurales, suburbaines et urbaines. Le code et les modèles de ce travail seront publiés sur https://opendatalab.github.io/CrossViewDiff/.
English
Satellite-to-street view synthesis aims at generating a realistic street-view
image from its corresponding satellite-view image. Although stable diffusion
models have exhibit remarkable performance in a variety of image generation
applications, their reliance on similar-view inputs to control the generated
structure or texture restricts their application to the challenging cross-view
synthesis task. In this work, we propose CrossViewDiff, a cross-view diffusion
model for satellite-to-street view synthesis. To address the challenges posed
by the large discrepancy across views, we design the satellite scene structure
estimation and cross-view texture mapping modules to construct the structural
and textural controls for street-view image synthesis. We further design a
cross-view control guided denoising process that incorporates the above
controls via an enhanced cross-view attention module. To achieve a more
comprehensive evaluation of the synthesis results, we additionally design a
GPT-based scoring method as a supplement to standard evaluation metrics. We
also explore the effect of different data sources (e.g., text, maps, building
heights, and multi-temporal satellite imagery) on this task. Results on three
public cross-view datasets show that CrossViewDiff outperforms current
state-of-the-art on both standard and GPT-based evaluation metrics, generating
high-quality street-view panoramas with more realistic structures and textures
across rural, suburban, and urban scenes. The code and models of this work will
be released at https://opendatalab.github.io/CrossViewDiff/.Summary
AI-Generated Summary