CrossViewDiff: Модель кросс-видовой диффузии для синтеза изображений с космического спутника на уличный вид.
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis
August 27, 2024
Авторы: Weijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He
cs.AI
Аннотация
Синтез изображения с видом с спутника на улицу направлен на создание реалистичного изображения улицы из соответствующего изображения с спутника. Хотя стабильные модели диффузии проявили выдающуюся производительность в различных приложениях генерации изображений, их зависимость от входных данных с похожим видом для управления созданной структурой или текстурой ограничивает их применение к сложной задаче синтеза между видами. В данной работе мы предлагаем CrossViewDiff, модель диффузии между видами для синтеза изображения с видом с спутника на улицу. Для решения вызванных большим расхождением между видами вызовов, мы разрабатываем модули оценки структуры сцены с спутника и отображения текстуры между видами для создания структурного и текстурного управления для синтеза изображения с видом на улицу. Мы также разрабатываем процесс денойзинга с управлением между видами, который интегрирует вышеуказанные управления через улучшенный модуль внимания между видами. Для более всесторонней оценки результатов синтеза мы дополнительно разрабатываем метод оценки на основе GPT в качестве дополнения к стандартным метрикам оценки. Мы также исследуем влияние различных источников данных (например, текст, карты, высоты зданий и мультивременные спутниковые изображения) на эту задачу. Результаты на трех общедоступных наборах данных между видами показывают, что CrossViewDiff превосходит текущие передовые методы как по стандартным, так и по метрикам оценки на основе GPT, генерируя высококачественные панорамы улиц с более реалистичными структурами и текстурами в сельских, пригородных и городских сценах. Код и модели этой работы будут опубликованы на https://opendatalab.github.io/CrossViewDiff/.
English
Satellite-to-street view synthesis aims at generating a realistic street-view
image from its corresponding satellite-view image. Although stable diffusion
models have exhibit remarkable performance in a variety of image generation
applications, their reliance on similar-view inputs to control the generated
structure or texture restricts their application to the challenging cross-view
synthesis task. In this work, we propose CrossViewDiff, a cross-view diffusion
model for satellite-to-street view synthesis. To address the challenges posed
by the large discrepancy across views, we design the satellite scene structure
estimation and cross-view texture mapping modules to construct the structural
and textural controls for street-view image synthesis. We further design a
cross-view control guided denoising process that incorporates the above
controls via an enhanced cross-view attention module. To achieve a more
comprehensive evaluation of the synthesis results, we additionally design a
GPT-based scoring method as a supplement to standard evaluation metrics. We
also explore the effect of different data sources (e.g., text, maps, building
heights, and multi-temporal satellite imagery) on this task. Results on three
public cross-view datasets show that CrossViewDiff outperforms current
state-of-the-art on both standard and GPT-based evaluation metrics, generating
high-quality street-view panoramas with more realistic structures and textures
across rural, suburban, and urban scenes. The code and models of this work will
be released at https://opendatalab.github.io/CrossViewDiff/.Summary
AI-Generated Summary