Adaptación de detectores de vehículos para imágenes aéreas a dominios no vistos con supervisión débil
Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision
July 28, 2025
Autores: Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI
Resumen
La detección de vehículos en imágenes aéreas es una tarea crítica con aplicaciones en monitoreo de tráfico, planificación urbana e inteligencia de defensa. Los métodos de aprendizaje profundo han proporcionado resultados de vanguardia (SOTA) para esta aplicación. Sin embargo, surge un desafío significativo cuando los modelos entrenados con datos de una región geográfica no logran generalizar eficazmente a otras áreas. La variabilidad en factores como las condiciones ambientales, los diseños urbanos, las redes viales, los tipos de vehículos y los parámetros de adquisición de imágenes (por ejemplo, resolución, iluminación y ángulo) provoca cambios de dominio que degradan el rendimiento del modelo. Este artículo propone un método novedoso que utiliza inteligencia artificial generativa para sintetizar imágenes aéreas de alta calidad y sus etiquetas, mejorando el entrenamiento de detectores mediante la ampliación de datos. Nuestra contribución clave es el desarrollo de un marco de transferencia de conocimiento multimodal y de múltiples etapas que utiliza modelos de difusión latente (LDMs) ajustados para mitigar la brecha de distribución entre los entornos de origen y destino. Experimentos exhaustivos en diversos dominios de imágenes aéreas muestran mejoras consistentes en AP50 sobre el aprendizaje supervisado con datos del dominio de origen, métodos de adaptación débilmente supervisados, métodos de adaptación de dominio no supervisados y detectores de objetos de conjunto abierto en un 4-23%, 6-10%, 7-40% y más del 50%, respectivamente. Además, presentamos dos nuevos conjuntos de datos aéreos anotados de Nueva Zelanda y Utah para apoyar futuras investigaciones en este campo. La página del proyecto está disponible en: https://humansensinglab.github.io/AGenDA
English
Detecting vehicles in aerial imagery is a critical task with applications in
traffic monitoring, urban planning, and defense intelligence. Deep learning
methods have provided state-of-the-art (SOTA) results for this application.
However, a significant challenge arises when models trained on data from one
geographic region fail to generalize effectively to other areas. Variability in
factors such as environmental conditions, urban layouts, road networks, vehicle
types, and image acquisition parameters (e.g., resolution, lighting, and angle)
leads to domain shifts that degrade model performance. This paper proposes a
novel method that uses generative AI to synthesize high-quality aerial images
and their labels, improving detector training through data augmentation. Our
key contribution is the development of a multi-stage, multi-modal knowledge
transfer framework utilizing fine-tuned latent diffusion models (LDMs) to
mitigate the distribution gap between the source and target environments.
Extensive experiments across diverse aerial imagery domains show consistent
performance improvements in AP50 over supervised learning on source domain
data, weakly supervised adaptation methods, unsupervised domain adaptation
methods, and open-set object detectors by 4-23%, 6-10%, 7-40%, and more than
50%, respectively. Furthermore, we introduce two newly annotated aerial
datasets from New Zealand and Utah to support further research in this field.
Project page is available at: https://humansensinglab.github.io/AGenDA