Anpassung von Fahrzeugdetektoren für Luftbilder an unbekannte Domänen mit schwacher Überwachung
Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision
July 28, 2025
papers.authors: Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI
papers.abstract
Die Erkennung von Fahrzeugen in Luftbildern ist eine entscheidende Aufgabe mit Anwendungen in der Verkehrsüberwachung, Stadtplanung und Verteidigungsnachrichtendiensten. Deep-Learning-Methoden haben hierbei state-of-the-art (SOTA) Ergebnisse erzielt. Eine erhebliche Herausforderung besteht jedoch darin, dass Modelle, die mit Daten aus einer geografischen Region trainiert wurden, oft nicht effektiv auf andere Gebiete verallgemeinern können. Variabilitäten in Faktoren wie Umweltbedingungen, städtischen Strukturen, Straßennetzen, Fahrzeugtypen und Bildaufnahmeparametern (z. B. Auflösung, Beleuchtung und Winkel) führen zu Domänenverschiebungen, die die Modellleistung beeinträchtigen. In diesem Artikel wird eine neuartige Methode vorgeschlagen, die generative KI zur Synthese hochwertiger Luftbilder und deren Beschriftungen nutzt, um das Training von Detektoren durch Datenaugmentierung zu verbessern. Unser wesentlicher Beitrag ist die Entwicklung eines mehrstufigen, multimodalen Wissensübertragungsrahmens, der feinabgestimmte latente Diffusionsmodelle (LDMs) verwendet, um die Verteilungslücke zwischen der Quell- und der Zielumgebung zu verringern. Umfangreiche Experimente in verschiedenen Luftbilddomänen zeigen konsistente Leistungsverbesserungen in AP50 im Vergleich zu überwachtem Lernen auf Quelldomänendaten, schwach überwachten Adaptionsmethoden, unüberwachten Domänenanpassungsmethoden und Open-Set-Objektdetektoren um 4–23 %, 6–10 %, 7–40 % bzw. mehr als 50 %. Darüber hinaus stellen wir zwei neu annotierte Luftbilddatensätze aus Neuseeland und Utah vor, um weitere Forschungen in diesem Bereich zu unterstützen. Die Projektseite ist verfügbar unter: https://humansensinglab.github.io/AGenDA
English
Detecting vehicles in aerial imagery is a critical task with applications in
traffic monitoring, urban planning, and defense intelligence. Deep learning
methods have provided state-of-the-art (SOTA) results for this application.
However, a significant challenge arises when models trained on data from one
geographic region fail to generalize effectively to other areas. Variability in
factors such as environmental conditions, urban layouts, road networks, vehicle
types, and image acquisition parameters (e.g., resolution, lighting, and angle)
leads to domain shifts that degrade model performance. This paper proposes a
novel method that uses generative AI to synthesize high-quality aerial images
and their labels, improving detector training through data augmentation. Our
key contribution is the development of a multi-stage, multi-modal knowledge
transfer framework utilizing fine-tuned latent diffusion models (LDMs) to
mitigate the distribution gap between the source and target environments.
Extensive experiments across diverse aerial imagery domains show consistent
performance improvements in AP50 over supervised learning on source domain
data, weakly supervised adaptation methods, unsupervised domain adaptation
methods, and open-set object detectors by 4-23%, 6-10%, 7-40%, and more than
50%, respectively. Furthermore, we introduce two newly annotated aerial
datasets from New Zealand and Utah to support further research in this field.
Project page is available at: https://humansensinglab.github.io/AGenDA