ChatPaper.aiChatPaper

弱教師付き学習による未見領域への航空画像用車両検出器の適応

Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

July 28, 2025
著者: Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI

要旨

航空画像における車両検出は、交通監視、都市計画、防衛情報などの応用において重要な課題である。深層学習手法は、この応用において最先端(SOTA)の結果を提供してきた。しかし、ある地理的領域のデータで訓練されたモデルが他の地域に効果的に一般化できないという重大な課題が存在する。環境条件、都市レイアウト、道路ネットワーク、車両タイプ、画像取得パラメータ(解像度、照明、角度など)の変動により、ドメインシフトが発生し、モデルの性能が低下する。本論文では、生成AIを用いて高品質な航空画像とそのラベルを合成し、データ拡張を通じて検出器の訓練を改善する新たな手法を提案する。我々の主要な貢献は、ソース環境とターゲット環境間の分布ギャップを軽減するために、微調整された潜在拡散モデル(LDMs)を利用した多段階・多モーダル知識転移フレームワークの開発である。多様な航空画像ドメインにわたる広範な実験により、ソースドメインデータに対する教師あり学習、弱教師あり適応手法、教師なしドメイン適応手法、オープンセット物体検出器と比較して、AP50においてそれぞれ4-23%、6-10%、7-40%、50%以上の一貫した性能向上が示された。さらに、この分野のさらなる研究を支援するために、ニュージーランドとユタ州の新たに注釈付けされた航空データセットを導入する。プロジェクトページは以下で利用可能である:https://humansensinglab.github.io/AGenDA
English
Detecting vehicles in aerial imagery is a critical task with applications in traffic monitoring, urban planning, and defense intelligence. Deep learning methods have provided state-of-the-art (SOTA) results for this application. However, a significant challenge arises when models trained on data from one geographic region fail to generalize effectively to other areas. Variability in factors such as environmental conditions, urban layouts, road networks, vehicle types, and image acquisition parameters (e.g., resolution, lighting, and angle) leads to domain shifts that degrade model performance. This paper proposes a novel method that uses generative AI to synthesize high-quality aerial images and their labels, improving detector training through data augmentation. Our key contribution is the development of a multi-stage, multi-modal knowledge transfer framework utilizing fine-tuned latent diffusion models (LDMs) to mitigate the distribution gap between the source and target environments. Extensive experiments across diverse aerial imagery domains show consistent performance improvements in AP50 over supervised learning on source domain data, weakly supervised adaptation methods, unsupervised domain adaptation methods, and open-set object detectors by 4-23%, 6-10%, 7-40%, and more than 50%, respectively. Furthermore, we introduce two newly annotated aerial datasets from New Zealand and Utah to support further research in this field. Project page is available at: https://humansensinglab.github.io/AGenDA
PDF93July 31, 2025