Game4Loc: Un conjunto de datos de referencia de geolocalización de UAV a partir de datos de juegos
Game4Loc: A UAV Geo-Localization Benchmark from Game Data
September 25, 2024
Autores: Yuxiang Ji, Boyong He, Zhuoyue Tan, Liaoni Wu
cs.AI
Resumen
La tecnología de geo-localización basada en visión para UAV, que sirve como una fuente secundaria de información GPS además de los sistemas globales de navegación por satélite (GNSS), aún puede operar de forma independiente en entornos sin señal GPS. Métodos recientes basados en aprendizaje profundo atribuyen esta tarea al emparejamiento y recuperación de imágenes. Al recuperar imágenes de vista de dron en una base de datos de imágenes satelitales geoetiquetadas, se puede obtener información de localización aproximada. Sin embargo, debido a los altos costos y preocupaciones de privacidad, suele ser difícil obtener grandes cantidades de imágenes de vista de dron de un área continua. Los conjuntos de datos de vista de dron existentes están mayormente compuestos por fotografías aéreas a pequeña escala con la fuerte suposición de que existe una imagen de referencia perfectamente alineada de uno a uno para cualquier consulta, dejando una brecha significativa con respecto al escenario de localización práctica. En este trabajo, construimos un conjunto de datos de geo-localización de UAV de área contigua de gran alcance llamado GTA-UAV, que presenta múltiples altitudes de vuelo, actitudes, escenas y objetivos utilizando videojuegos modernos. Basándonos en este conjunto de datos, introducimos una tarea de geo-localización de UAV más práctica que incluye coincidencias parciales de datos emparejados de vistas cruzadas, y ampliamos la recuperación a nivel de imagen a la localización real en términos de distancia (metros). Para la construcción de pares de vistas de dron y satélite, adoptamos un enfoque de aprendizaje contrastivo basado en pesos, que permite un aprendizaje efectivo evitando pasos adicionales de emparejamiento en el postprocesamiento. Los experimentos demuestran la efectividad de nuestros datos y método de entrenamiento para la geo-localización de UAV, así como las capacidades de generalización a escenarios del mundo real.
English
The vision-based geo-localization technology for UAV, serving as a secondary
source of GPS information in addition to the global navigation satellite
systems (GNSS), can still operate independently in the GPS-denied environment.
Recent deep learning based methods attribute this as the task of image matching
and retrieval. By retrieving drone-view images in geo-tagged satellite image
database, approximate localization information can be obtained. However, due to
high costs and privacy concerns, it is usually difficult to obtain large
quantities of drone-view images from a continuous area. Existing drone-view
datasets are mostly composed of small-scale aerial photography with a strong
assumption that there exists a perfect one-to-one aligned reference image for
any query, leaving a significant gap from the practical localization scenario.
In this work, we construct a large-range contiguous area UAV geo-localization
dataset named GTA-UAV, featuring multiple flight altitudes, attitudes, scenes,
and targets using modern computer games. Based on this dataset, we introduce a
more practical UAV geo-localization task including partial matches of
cross-view paired data, and expand the image-level retrieval to the actual
localization in terms of distance (meters). For the construction of drone-view
and satellite-view pairs, we adopt a weight-based contrastive learning
approach, which allows for effective learning while avoiding additional
post-processing matching steps. Experiments demonstrate the effectiveness of
our data and training method for UAV geo-localization, as well as the
generalization capabilities to real-world scenarios.