Voertuigdetectoren aanpassen voor luchtfotografie naar onbekende domeinen met zwakke supervisie
Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision
July 28, 2025
Auteurs: Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI
Samenvatting
Het detecteren van voertuigen in luchtbeelden is een cruciale taak met toepassingen in verkeersmonitoring, stadsplanning en defensie-inlichtingen. Deep learning-methoden hebben state-of-the-art (SOTA) resultaten geleverd voor deze toepassing. Een aanzienlijke uitdaging doet zich echter voor wanneer modellen die zijn getraind op gegevens uit één geografische regio, niet effectief generaliseren naar andere gebieden. Variabiliteit in factoren zoals omgevingsomstandigheden, stedelijke lay-outs, wegennetwerken, voertuigtypen en beeldacquisitieparameters (bijv. resolutie, belichting en hoek) leidt tot domeinverschuivingen die de modelprestaties verslechteren. Dit artikel stelt een nieuwe methode voor die generatieve AI gebruikt om hoogwaardige luchtbeelden en hun labels te synthetiseren, waardoor de training van detectoren wordt verbeterd door data-augmentatie. Onze belangrijkste bijdrage is de ontwikkeling van een multi-stage, multi-modale kennisoverdrachtsframework dat gebruikmaakt van fijn afgestelde latent diffusion models (LDMs) om de distributiekloof tussen de bron- en doelomgevingen te verkleinen. Uitgebreide experimenten in diverse domeinen van luchtbeelden laten consistente prestatieverbeteringen zien in AP50 ten opzichte van supervised learning op brondomeingegevens, zwak supervised adaptatiemethoden, unsupervised domeinadaptatiemethoden en open-set objectdetectoren met respectievelijk 4-23%, 6-10%, 7-40% en meer dan 50%. Bovendien introduceren we twee nieuw geannoteerde luchtbeelddatasets uit Nieuw-Zeeland en Utah om verder onderzoek op dit gebied te ondersteunen. De projectpagina is beschikbaar op: https://humansensinglab.github.io/AGenDA.
English
Detecting vehicles in aerial imagery is a critical task with applications in
traffic monitoring, urban planning, and defense intelligence. Deep learning
methods have provided state-of-the-art (SOTA) results for this application.
However, a significant challenge arises when models trained on data from one
geographic region fail to generalize effectively to other areas. Variability in
factors such as environmental conditions, urban layouts, road networks, vehicle
types, and image acquisition parameters (e.g., resolution, lighting, and angle)
leads to domain shifts that degrade model performance. This paper proposes a
novel method that uses generative AI to synthesize high-quality aerial images
and their labels, improving detector training through data augmentation. Our
key contribution is the development of a multi-stage, multi-modal knowledge
transfer framework utilizing fine-tuned latent diffusion models (LDMs) to
mitigate the distribution gap between the source and target environments.
Extensive experiments across diverse aerial imagery domains show consistent
performance improvements in AP50 over supervised learning on source domain
data, weakly supervised adaptation methods, unsupervised domain adaptation
methods, and open-set object detectors by 4-23%, 6-10%, 7-40%, and more than
50%, respectively. Furthermore, we introduce two newly annotated aerial
datasets from New Zealand and Utah to support further research in this field.
Project page is available at: https://humansensinglab.github.io/AGenDA