CrossViewDiff: Un modello di diffusione Cross-View per la sintesi da vista satellitare a vista stradale.
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis
August 27, 2024
Autori: Weijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He
cs.AI
Abstract
La sintesi da vista satellite a vista stradale mira a generare un'immagine realistica della vista stradale a partire dalla corrispondente immagine della vista satellite. Anche se i modelli di diffusione stabili hanno dimostrato prestazioni notevoli in una varietà di applicazioni di generazione di immagini, la loro dipendenza da input di vista simile per controllare la struttura o la texture generata limita la loro applicazione al complesso compito di sintesi tra viste diverse. In questo lavoro, proponiamo CrossViewDiff, un modello di diffusione tra viste diverse per la sintesi da vista satellite a vista stradale. Per affrontare le sfide poste dalla grande discrepanza tra le viste, progettiamo i moduli di stima della struttura della scena satellite e di mappatura della texture tra viste diverse per costruire i controlli strutturali e testuali per la sintesi dell'immagine della vista stradale. Progettiamo inoltre un processo di denoising guidato dal controllo tra viste diverse che incorpora i suddetti controlli tramite un modulo di attenzione tra viste diverse potenziato. Per ottenere una valutazione più completa dei risultati della sintesi, progettiamo inoltre un metodo di punteggio basato su GPT come supplemento alle metriche di valutazione standard. Esploriamo anche l'effetto di diverse fonti di dati (ad esempio, testo, mappe, altezze degli edifici e immagini satellitari multi-temporali) su questo compito. I risultati su tre set di dati pubblici tra viste diverse mostrano che CrossViewDiff supera lo stato dell'arte attuale sia sulle metriche di valutazione standard che su quelle basate su GPT, generando panorami di vista stradale di alta qualità con strutture e texture più realistiche in scene rurali, suburbane e urbane. Il codice e i modelli di questo lavoro saranno rilasciati su https://opendatalab.github.io/CrossViewDiff/.
English
Satellite-to-street view synthesis aims at generating a realistic street-view
image from its corresponding satellite-view image. Although stable diffusion
models have exhibit remarkable performance in a variety of image generation
applications, their reliance on similar-view inputs to control the generated
structure or texture restricts their application to the challenging cross-view
synthesis task. In this work, we propose CrossViewDiff, a cross-view diffusion
model for satellite-to-street view synthesis. To address the challenges posed
by the large discrepancy across views, we design the satellite scene structure
estimation and cross-view texture mapping modules to construct the structural
and textural controls for street-view image synthesis. We further design a
cross-view control guided denoising process that incorporates the above
controls via an enhanced cross-view attention module. To achieve a more
comprehensive evaluation of the synthesis results, we additionally design a
GPT-based scoring method as a supplement to standard evaluation metrics. We
also explore the effect of different data sources (e.g., text, maps, building
heights, and multi-temporal satellite imagery) on this task. Results on three
public cross-view datasets show that CrossViewDiff outperforms current
state-of-the-art on both standard and GPT-based evaluation metrics, generating
high-quality street-view panoramas with more realistic structures and textures
across rural, suburban, and urban scenes. The code and models of this work will
be released at https://opendatalab.github.io/CrossViewDiff/.Summary
AI-Generated Summary