CrossViewDiff: Een Cross-View Diffusiemodel voor Satelliet-naar-Straatbeeld Synthese
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis
August 27, 2024
Auteurs: Weijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He
cs.AI
Samenvatting
Satelliet-naar-straatbeeld-synthese heeft als doel een realistisch straatbeeld te genereren vanuit het bijbehorende satellietbeeld. Hoewel stabiele diffusiemodellen opmerkelijke prestaties hebben laten zien in diverse beeldgeneratietoepassingen, beperkt hun afhankelijkheid van gelijksoortige invoerbeelden om de gegenereerde structuur of textuur te controleren hun toepasbaarheid voor de uitdagende taak van kruisbeeld-synthese. In dit werk stellen we CrossViewDiff voor, een kruisbeeld-diffusiemodel voor satelliet-naar-straatbeeld-synthese. Om de uitdagingen veroorzaakt door de grote discrepantie tussen de beelden aan te pakken, ontwerpen we de satellietscène-structuurschatting en kruisbeeld-textuurtoewijzingsmodules om de structurele en textuurcontroles voor straatbeeld-synthese te construeren. We ontwerpen verder een kruisbeeld-controle-gestuurd denoiseringsproces dat deze controles integreert via een verbeterde kruisbeeld-attentiemodule. Om een uitgebreidere evaluatie van de synthetische resultaten te bereiken, ontwerpen we aanvullend een GPT-gebaseerde scoringsmethode als aanvulling op standaard evaluatiemetrics. We onderzoeken ook het effect van verschillende databronnen (bijv. tekst, kaarten, gebouwhoogtes en multi-temporele satellietbeelden) op deze taak. Resultaten op drie openbare kruisbeeld-datasets tonen aan dat CrossViewDiff de huidige state-of-the-art overtreft op zowel standaard als GPT-gebaseerde evaluatiemetrics, waarbij hoogwaardige straatbeeld-panorama's worden gegenereerd met realistischer structuren en texturen in landelijke, voorstedelijke en stedelijke scènes. De code en modellen van dit werk zullen worden vrijgegeven op https://opendatalab.github.io/CrossViewDiff/.
English
Satellite-to-street view synthesis aims at generating a realistic street-view
image from its corresponding satellite-view image. Although stable diffusion
models have exhibit remarkable performance in a variety of image generation
applications, their reliance on similar-view inputs to control the generated
structure or texture restricts their application to the challenging cross-view
synthesis task. In this work, we propose CrossViewDiff, a cross-view diffusion
model for satellite-to-street view synthesis. To address the challenges posed
by the large discrepancy across views, we design the satellite scene structure
estimation and cross-view texture mapping modules to construct the structural
and textural controls for street-view image synthesis. We further design a
cross-view control guided denoising process that incorporates the above
controls via an enhanced cross-view attention module. To achieve a more
comprehensive evaluation of the synthesis results, we additionally design a
GPT-based scoring method as a supplement to standard evaluation metrics. We
also explore the effect of different data sources (e.g., text, maps, building
heights, and multi-temporal satellite imagery) on this task. Results on three
public cross-view datasets show that CrossViewDiff outperforms current
state-of-the-art on both standard and GPT-based evaluation metrics, generating
high-quality street-view panoramas with more realistic structures and textures
across rural, suburban, and urban scenes. The code and models of this work will
be released at https://opendatalab.github.io/CrossViewDiff/.Summary
AI-Generated Summary