ChatPaper.aiChatPaper

Adapter les détecteurs de véhicules pour l'imagerie aérienne à des domaines non vus avec une supervision faible

Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

July 28, 2025
papers.authors: Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI

papers.abstract

La détection de véhicules dans les images aériennes est une tâche cruciale avec des applications dans la surveillance du trafic, l'urbanisme et le renseignement militaire. Les méthodes d'apprentissage profond ont fourni des résultats de pointe (SOTA) pour cette application. Cependant, un défi majeur survient lorsque les modèles entraînés sur des données provenant d'une région géographique donnée ne parviennent pas à généraliser efficacement à d'autres zones. La variabilité des facteurs tels que les conditions environnementales, les configurations urbaines, les réseaux routiers, les types de véhicules et les paramètres d'acquisition d'images (par exemple, la résolution, l'éclairage et l'angle) entraîne des décalages de domaine qui dégradent les performances du modèle. Cet article propose une nouvelle méthode utilisant l'IA générative pour synthétiser des images aériennes de haute qualité et leurs étiquettes, améliorant ainsi l'entraînement des détecteurs grâce à l'augmentation de données. Notre contribution principale est le développement d'un cadre de transfert de connaissances multi-étapes et multi-modal, utilisant des modèles de diffusion latente (LDMs) affinés pour atténuer l'écart de distribution entre les environnements source et cible. Des expériences approfondies sur divers domaines d'imagerie aérienne montrent des améliorations constantes des performances en AP50 par rapport à l'apprentissage supervisé sur les données du domaine source, aux méthodes d'adaptation faiblement supervisées, aux méthodes d'adaptation de domaine non supervisées et aux détecteurs d'objets en ensemble ouvert, avec des gains respectifs de 4-23%, 6-10%, 7-40% et plus de 50%. En outre, nous introduisons deux nouveaux ensembles de données aériennes annotées provenant de Nouvelle-Zélande et de l'Utah pour soutenir les recherches futures dans ce domaine. La page du projet est disponible à l'adresse : https://humansensinglab.github.io/AGenDA
English
Detecting vehicles in aerial imagery is a critical task with applications in traffic monitoring, urban planning, and defense intelligence. Deep learning methods have provided state-of-the-art (SOTA) results for this application. However, a significant challenge arises when models trained on data from one geographic region fail to generalize effectively to other areas. Variability in factors such as environmental conditions, urban layouts, road networks, vehicle types, and image acquisition parameters (e.g., resolution, lighting, and angle) leads to domain shifts that degrade model performance. This paper proposes a novel method that uses generative AI to synthesize high-quality aerial images and their labels, improving detector training through data augmentation. Our key contribution is the development of a multi-stage, multi-modal knowledge transfer framework utilizing fine-tuned latent diffusion models (LDMs) to mitigate the distribution gap between the source and target environments. Extensive experiments across diverse aerial imagery domains show consistent performance improvements in AP50 over supervised learning on source domain data, weakly supervised adaptation methods, unsupervised domain adaptation methods, and open-set object detectors by 4-23%, 6-10%, 7-40%, and more than 50%, respectively. Furthermore, we introduce two newly annotated aerial datasets from New Zealand and Utah to support further research in this field. Project page is available at: https://humansensinglab.github.io/AGenDA
PDF103July 31, 2025