Адаптация детекторов транспортных средств для аэрофотоснимков к новым доменам с использованием слабого контроля
Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision
July 28, 2025
Авторы: Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI
Аннотация
Обнаружение транспортных средств на аэрофотоснимках является важной задачей, имеющей применение в мониторинге трафика, городском планировании и разведывательной деятельности. Методы глубокого обучения обеспечивают передовые результаты для данного применения. Однако значительная проблема возникает, когда модели, обученные на данных из одного географического региона, не могут эффективно обобщать информацию для других областей. Изменчивость таких факторов, как условия окружающей среды, городская планировка, дорожные сети, типы транспортных средств и параметры съемки (например, разрешение, освещение и угол), приводит к сдвигам доменов, которые ухудшают производительность модели. В данной статье предлагается новый метод, использующий генеративный искусственный интеллект для синтеза высококачественных аэрофотоснимков и их меток, что улучшает обучение детектора за счет аугментации данных. Наш ключевой вклад заключается в разработке многоэтапной, многомодальной системы передачи знаний, использующей тонко настроенные латентные диффузионные модели (LDMs) для уменьшения разрыва в распределении между исходной и целевой средами. Экстенсивные эксперименты в различных доменах аэрофотоснимков показывают устойчивое улучшение производительности по метрике AP50 по сравнению с обучением с учителем на данных исходного домена, методами слабо контролируемой адаптации, методами адаптации без учителя и детекторами объектов с открытым множеством на 4-23%, 6-10%, 7-40% и более чем 50% соответственно. Кроме того, мы представляем два новых аннотированных набора аэрофотоснимков из Новой Зеландии и Юты для поддержки дальнейших исследований в этой области. Страница проекта доступна по адресу: https://humansensinglab.github.io/AGenDA.
English
Detecting vehicles in aerial imagery is a critical task with applications in
traffic monitoring, urban planning, and defense intelligence. Deep learning
methods have provided state-of-the-art (SOTA) results for this application.
However, a significant challenge arises when models trained on data from one
geographic region fail to generalize effectively to other areas. Variability in
factors such as environmental conditions, urban layouts, road networks, vehicle
types, and image acquisition parameters (e.g., resolution, lighting, and angle)
leads to domain shifts that degrade model performance. This paper proposes a
novel method that uses generative AI to synthesize high-quality aerial images
and their labels, improving detector training through data augmentation. Our
key contribution is the development of a multi-stage, multi-modal knowledge
transfer framework utilizing fine-tuned latent diffusion models (LDMs) to
mitigate the distribution gap between the source and target environments.
Extensive experiments across diverse aerial imagery domains show consistent
performance improvements in AP50 over supervised learning on source domain
data, weakly supervised adaptation methods, unsupervised domain adaptation
methods, and open-set object detectors by 4-23%, 6-10%, 7-40%, and more than
50%, respectively. Furthermore, we introduce two newly annotated aerial
datasets from New Zealand and Utah to support further research in this field.
Project page is available at: https://humansensinglab.github.io/AGenDA