ChatPaper.aiChatPaper

Adattamento di rilevatori di veicoli per immagini aeree a domini non visti con supervisione debole

Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

July 28, 2025
Autori: Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI

Abstract

Il rilevamento di veicoli nelle immagini aeree è un compito cruciale con applicazioni nel monitoraggio del traffico, nella pianificazione urbana e nell'intelligence difensiva. I metodi di deep learning hanno fornito risultati all'avanguardia (SOTA) per questa applicazione. Tuttavia, una sfida significativa si presenta quando i modelli addestrati su dati provenienti da una regione geografica non riescono a generalizzare efficacemente ad altre aree. La variabilità di fattori come le condizioni ambientali, la disposizione urbana, le reti stradali, i tipi di veicoli e i parametri di acquisizione delle immagini (ad esempio, risoluzione, illuminazione e angolazione) porta a cambiamenti di dominio che degradano le prestazioni del modello. Questo articolo propone un metodo innovativo che utilizza l'IA generativa per sintetizzare immagini aeree di alta qualità e le relative etichette, migliorando l'addestramento dei rilevatori attraverso l'aumento dei dati. Il nostro contributo chiave è lo sviluppo di un framework di trasferimento di conoscenza multi-stadio e multi-modale che utilizza modelli di diffusione latente (LDMs) ottimizzati per mitigare il divario di distribuzione tra l'ambiente di origine e quello di destinazione. Esperimenti estesi su diversi domini di immagini aeree mostrano miglioramenti consistenti nelle prestazioni in AP50 rispetto all'apprendimento supervisionato sui dati del dominio di origine, ai metodi di adattamento debolmente supervisionati, ai metodi di adattamento di dominio non supervisionati e ai rilevatori di oggetti a insieme aperto, rispettivamente del 4-23%, 6-10%, 7-40% e oltre il 50%. Inoltre, introduciamo due nuovi dataset aerei annotati provenienti dalla Nuova Zelanda e dallo Utah per supportare ulteriori ricerche in questo campo. La pagina del progetto è disponibile all'indirizzo: https://humansensinglab.github.io/AGenDA
English
Detecting vehicles in aerial imagery is a critical task with applications in traffic monitoring, urban planning, and defense intelligence. Deep learning methods have provided state-of-the-art (SOTA) results for this application. However, a significant challenge arises when models trained on data from one geographic region fail to generalize effectively to other areas. Variability in factors such as environmental conditions, urban layouts, road networks, vehicle types, and image acquisition parameters (e.g., resolution, lighting, and angle) leads to domain shifts that degrade model performance. This paper proposes a novel method that uses generative AI to synthesize high-quality aerial images and their labels, improving detector training through data augmentation. Our key contribution is the development of a multi-stage, multi-modal knowledge transfer framework utilizing fine-tuned latent diffusion models (LDMs) to mitigate the distribution gap between the source and target environments. Extensive experiments across diverse aerial imagery domains show consistent performance improvements in AP50 over supervised learning on source domain data, weakly supervised adaptation methods, unsupervised domain adaptation methods, and open-set object detectors by 4-23%, 6-10%, 7-40%, and more than 50%, respectively. Furthermore, we introduce two newly annotated aerial datasets from New Zealand and Utah to support further research in this field. Project page is available at: https://humansensinglab.github.io/AGenDA
PDF103July 31, 2025