CrossViewDiff: Um Modelo de Difusão de Visão Cruzada para Síntese de Imagens de Satélite para Visualização de Rua
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis
August 27, 2024
Autores: Weijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He
cs.AI
Resumo
A síntese de vista de satélite para vista de rua tem como objetivo gerar uma imagem realista da vista de rua a partir da sua imagem correspondente de vista de satélite. Embora os modelos de difusão estáveis tenham apresentado um desempenho notável em uma variedade de aplicações de geração de imagens, sua dependência de entradas de vista semelhante para controlar a estrutura ou textura gerada restringe sua aplicação à desafiadora tarefa de síntese entre vistas. Neste trabalho, propomos o CrossViewDiff, um modelo de difusão entre vistas para a síntese de vista de satélite para vista de rua. Para lidar com os desafios impostos pela grande discrepância entre vistas, projetamos os módulos de estimativa de estrutura da cena de satélite e mapeamento de textura entre vistas para construir os controles estruturais e texturais para a síntese da imagem de vista de rua. Além disso, projetamos um processo de remoção de ruído guiado por controle entre vistas que incorpora os controles acima por meio de um módulo de atenção entre vistas aprimorado. Para obter uma avaliação mais abrangente dos resultados de síntese, projetamos adicionalmente um método de pontuação baseado em GPT como um complemento às métricas de avaliação padrão. Também exploramos o efeito de diferentes fontes de dados (por exemplo, texto, mapas, alturas de edifícios e imagens de satélite multitemporais) nesta tarefa. Os resultados em três conjuntos de dados públicos de vistas entre vistas mostram que o CrossViewDiff supera o estado da arte atual em ambas as métricas de avaliação padrão e baseadas em GPT, gerando panoramas de vista de rua de alta qualidade com estruturas e texturas mais realistas em cenas rurais, suburbanas e urbanas. O código e os modelos deste trabalho serão disponibilizados em https://opendatalab.github.io/CrossViewDiff/.
English
Satellite-to-street view synthesis aims at generating a realistic street-view
image from its corresponding satellite-view image. Although stable diffusion
models have exhibit remarkable performance in a variety of image generation
applications, their reliance on similar-view inputs to control the generated
structure or texture restricts their application to the challenging cross-view
synthesis task. In this work, we propose CrossViewDiff, a cross-view diffusion
model for satellite-to-street view synthesis. To address the challenges posed
by the large discrepancy across views, we design the satellite scene structure
estimation and cross-view texture mapping modules to construct the structural
and textural controls for street-view image synthesis. We further design a
cross-view control guided denoising process that incorporates the above
controls via an enhanced cross-view attention module. To achieve a more
comprehensive evaluation of the synthesis results, we additionally design a
GPT-based scoring method as a supplement to standard evaluation metrics. We
also explore the effect of different data sources (e.g., text, maps, building
heights, and multi-temporal satellite imagery) on this task. Results on three
public cross-view datasets show that CrossViewDiff outperforms current
state-of-the-art on both standard and GPT-based evaluation metrics, generating
high-quality street-view panoramas with more realistic structures and textures
across rural, suburban, and urban scenes. The code and models of this work will
be released at https://opendatalab.github.io/CrossViewDiff/.Summary
AI-Generated Summary