CrossViewDiff: Ein Cross-View Diffusionsmodell für die Synthese von Satelliten- zu Straßenansichten
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis
August 27, 2024
Autoren: Weijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He
cs.AI
Zusammenfassung
Die Synthese von Satelliten- zu Straßenansichten zielt darauf ab, ein realistisches Straßenansichtsbild aus seinem entsprechenden Satellitenansichtsbild zu generieren. Obwohl stabile Diffusionsmodelle in einer Vielzahl von Bildgenerierungsanwendungen bemerkenswerte Leistungen gezeigt haben, beschränkt ihre Abhängigkeit von ähnlichen Eingangsansichten zur Steuerung der generierten Struktur oder Textur ihre Anwendung auf die anspruchsvolle Kreuzansichtssynthese-Aufgabe. In dieser Arbeit schlagen wir CrossViewDiff vor, ein Kreuzansichts-Diffusionsmodell für die Synthese von Satelliten- zu Straßenansichten. Um den Herausforderungen der großen Diskrepanz zwischen den Ansichten zu begegnen, entwerfen wir die Module zur Schätzung der Satellitenszene-Struktur und zur Kreuzansichts-Texturzuordnung, um die strukturellen und texturalen Steuerungen für die Straßenansichtsbildsynthese zu konstruieren. Darüber hinaus entwerfen wir einen kreuzansichtsgesteuerten Entrauschungsprozess, der die oben genannten Steuerungen über ein verbessertes Kreuzansichts-Aufmerksamkeitsmodul integriert. Um eine umfassendere Bewertung der Syntheseergebnisse zu erreichen, entwerfen wir zusätzlich eine auf GPT basierende Bewertungsmethode als Ergänzung zu den Standardbewertungsmetriken. Wir untersuchen auch die Auswirkungen verschiedener Datenquellen (z. B. Texte, Karten, Gebäudehöhen und mehrzeitliche Satellitenbilder) auf diese Aufgabe. Ergebnisse auf drei öffentlichen Kreuzansichtsdatensätzen zeigen, dass CrossViewDiff sowohl bei Standard- als auch bei GPT-basierten Bewertungsmetriken den aktuellen Stand der Technik übertrifft und hochwertige Straßenansichtspanoramen mit realistischeren Strukturen und Texturen in ländlichen, Vorstadt- und städtischen Szenen generiert. Der Code und die Modelle dieser Arbeit werden unter https://opendatalab.github.io/CrossViewDiff/ veröffentlicht.
English
Satellite-to-street view synthesis aims at generating a realistic street-view
image from its corresponding satellite-view image. Although stable diffusion
models have exhibit remarkable performance in a variety of image generation
applications, their reliance on similar-view inputs to control the generated
structure or texture restricts their application to the challenging cross-view
synthesis task. In this work, we propose CrossViewDiff, a cross-view diffusion
model for satellite-to-street view synthesis. To address the challenges posed
by the large discrepancy across views, we design the satellite scene structure
estimation and cross-view texture mapping modules to construct the structural
and textural controls for street-view image synthesis. We further design a
cross-view control guided denoising process that incorporates the above
controls via an enhanced cross-view attention module. To achieve a more
comprehensive evaluation of the synthesis results, we additionally design a
GPT-based scoring method as a supplement to standard evaluation metrics. We
also explore the effect of different data sources (e.g., text, maps, building
heights, and multi-temporal satellite imagery) on this task. Results on three
public cross-view datasets show that CrossViewDiff outperforms current
state-of-the-art on both standard and GPT-based evaluation metrics, generating
high-quality street-view panoramas with more realistic structures and textures
across rural, suburban, and urban scenes. The code and models of this work will
be released at https://opendatalab.github.io/CrossViewDiff/.Summary
AI-Generated Summary