ChatPaper.aiChatPaper

Adaptando Detectores de Veículos para Imagens Aéreas a Domínios Não Vistos com Supervisão Fraca

Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

July 28, 2025
Autores: Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI

Resumo

A detecção de veículos em imagens aéreas é uma tarefa crítica com aplicações em monitoramento de tráfego, planejamento urbano e inteligência de defesa. Métodos de aprendizado profundo têm fornecido resultados de última geração (state-of-the-art, SOTA) para essa aplicação. No entanto, um desafio significativo surge quando modelos treinados com dados de uma região geográfica falham em generalizar efetivamente para outras áreas. A variabilidade em fatores como condições ambientais, layouts urbanos, redes viárias, tipos de veículos e parâmetros de aquisição de imagens (por exemplo, resolução, iluminação e ângulo) leva a mudanças de domínio que degradam o desempenho do modelo. Este artigo propõe um método inovador que utiliza inteligência artificial generativa para sintetizar imagens aéreas de alta qualidade e seus rótulos, aprimorando o treinamento de detectores por meio de aumento de dados. Nossa principal contribuição é o desenvolvimento de uma estrutura de transferência de conhecimento multiestágio e multimodal, utilizando modelos de difusão latente (LDMs) ajustados para mitigar a lacuna de distribuição entre os ambientes de origem e destino. Experimentos extensivos em diversos domínios de imagens aéreas mostram melhorias consistentes de desempenho em AP50 sobre o aprendizado supervisionado com dados do domínio de origem, métodos de adaptação fracamente supervisionados, métodos de adaptação de domínio não supervisionados e detectores de objetos de conjunto aberto em 4-23%, 6-10%, 7-40% e mais de 50%, respectivamente. Além disso, introduzimos dois novos conjuntos de dados aéreos anotados da Nova Zelândia e de Utah para apoiar pesquisas adicionais nesse campo. A página do projeto está disponível em: https://humansensinglab.github.io/AGenDA
English
Detecting vehicles in aerial imagery is a critical task with applications in traffic monitoring, urban planning, and defense intelligence. Deep learning methods have provided state-of-the-art (SOTA) results for this application. However, a significant challenge arises when models trained on data from one geographic region fail to generalize effectively to other areas. Variability in factors such as environmental conditions, urban layouts, road networks, vehicle types, and image acquisition parameters (e.g., resolution, lighting, and angle) leads to domain shifts that degrade model performance. This paper proposes a novel method that uses generative AI to synthesize high-quality aerial images and their labels, improving detector training through data augmentation. Our key contribution is the development of a multi-stage, multi-modal knowledge transfer framework utilizing fine-tuned latent diffusion models (LDMs) to mitigate the distribution gap between the source and target environments. Extensive experiments across diverse aerial imagery domains show consistent performance improvements in AP50 over supervised learning on source domain data, weakly supervised adaptation methods, unsupervised domain adaptation methods, and open-set object detectors by 4-23%, 6-10%, 7-40%, and more than 50%, respectively. Furthermore, we introduce two newly annotated aerial datasets from New Zealand and Utah to support further research in this field. Project page is available at: https://humansensinglab.github.io/AGenDA
PDF103July 31, 2025