ChatPaper.aiChatPaper

CrossViewDiff: Un Modelo de Difusión de Vista Cruzada para la Síntesis de Imágenes de Satélite a Vista de Calle

CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis

August 27, 2024
Autores: Weijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He
cs.AI

Resumen

La síntesis de vista de satélite a vista de calle tiene como objetivo generar una imagen realista de vista de calle a partir de su imagen correspondiente de vista de satélite. Aunque los modelos de difusión estables han demostrado un rendimiento notable en una variedad de aplicaciones de generación de imágenes, su dependencia de entradas de vista similar para controlar la estructura o textura generada restringe su aplicación a la desafiante tarea de síntesis entre vistas. En este trabajo, proponemos CrossViewDiff, un modelo de difusión entre vistas para la síntesis de vista de satélite a vista de calle. Para abordar los desafíos planteados por la gran discrepancia entre vistas, diseñamos los módulos de estimación de la estructura de la escena satelital y mapeo de textura entre vistas para construir los controles estructurales y texturales para la síntesis de imágenes de vista de calle. Además, diseñamos un proceso de desenfoque guiado por control entre vistas que incorpora los controles mencionados anteriormente a través de un módulo de atención entre vistas mejorado. Para lograr una evaluación más completa de los resultados de la síntesis, diseñamos adicionalmente un método de puntuación basado en GPT como complemento a las métricas de evaluación estándar. También exploramos el efecto de diferentes fuentes de datos (por ejemplo, texto, mapas, alturas de edificios e imágenes satelitales multitemporales) en esta tarea. Los resultados en tres conjuntos de datos públicos de síntesis entre vistas muestran que CrossViewDiff supera al estado del arte actual tanto en métricas de evaluación estándar como basadas en GPT, generando panoramas de vista de calle de alta calidad con estructuras y texturas más realistas en escenas rurales, suburbanas y urbanas. El código y los modelos de este trabajo se publicarán en https://opendatalab.github.io/CrossViewDiff/.
English
Satellite-to-street view synthesis aims at generating a realistic street-view image from its corresponding satellite-view image. Although stable diffusion models have exhibit remarkable performance in a variety of image generation applications, their reliance on similar-view inputs to control the generated structure or texture restricts their application to the challenging cross-view synthesis task. In this work, we propose CrossViewDiff, a cross-view diffusion model for satellite-to-street view synthesis. To address the challenges posed by the large discrepancy across views, we design the satellite scene structure estimation and cross-view texture mapping modules to construct the structural and textural controls for street-view image synthesis. We further design a cross-view control guided denoising process that incorporates the above controls via an enhanced cross-view attention module. To achieve a more comprehensive evaluation of the synthesis results, we additionally design a GPT-based scoring method as a supplement to standard evaluation metrics. We also explore the effect of different data sources (e.g., text, maps, building heights, and multi-temporal satellite imagery) on this task. Results on three public cross-view datasets show that CrossViewDiff outperforms current state-of-the-art on both standard and GPT-based evaluation metrics, generating high-quality street-view panoramas with more realistic structures and textures across rural, suburban, and urban scenes. The code and models of this work will be released at https://opendatalab.github.io/CrossViewDiff/.

Summary

AI-Generated Summary

PDF152November 16, 2024