ChatPaper.aiChatPaper

都市規模の交通向けロバストな深層ネットワークに基づくマルチオブジェクト・マルチカメラ追跡システム

A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic

May 1, 2025
著者: Muhammad Imran Zaman, Usama Ijaz Bajwa, Gulshan Saleem, Rana Hammad Raza
cs.AI

要旨

インテリジェント交通システム(ITS)において、ネットワークカメラの数が増え続ける中、交通監視、管理、最適化のためのビジョンセンサーの重要性が高まっています。しかし、都市規模の交通シナリオにおいて、複数の重ならないカメラ間での手動による物体追跡とマッチングは、大きな課題を抱えています。これらの課題には、多様な車両属性、オクルージョン、照明の変化、影、および異なるビデオ解像度の処理が含まれます。これらの問題に対処するため、我々は、Multi-Object Multi-Camera Tracking(MO-MCT)のための効率的でコスト効果の高い深層学習ベースのフレームワークを提案します。提案フレームワークは、物体検出にMask R-CNNを利用し、重複検出からターゲット物体を選択するためにNon-Maximum Suppression(NMS)を採用します。再識別には転移学習を活用し、複数のカメラ間で車両トラックレットの関連付けと生成を可能にします。さらに、オクルージョン、照明、影の課題に対処するために適切な損失関数と距離尺度を活用します。最終的なソリューション識別モジュールは、ResNet-152とDeep SORTベースの車両追跡を組み合わせて特徴抽出を行います。提案フレームワークは、46のカメラフィードを含む第5回AI City Challengeデータセット(トラック3)で評価されました。これらの46のカメラストリームのうち、40はモデルのトレーニングと検証に使用され、残りの6つはモデルのテストに利用されました。提案フレームワークは、IDF1スコア0.8289、精度0.9026、再現率0.8527を達成し、堅牢で正確な車両追跡における有効性を実証しました。
English
Vision sensors are becoming more important in Intelligent Transportation Systems (ITS) for traffic monitoring, management, and optimization as the number of network cameras continues to rise. However, manual object tracking and matching across multiple non-overlapping cameras pose significant challenges in city-scale urban traffic scenarios. These challenges include handling diverse vehicle attributes, occlusions, illumination variations, shadows, and varying video resolutions. To address these issues, we propose an efficient and cost-effective deep learning-based framework for Multi-Object Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for object detection and employs Non-Maximum Suppression (NMS) to select target objects from overlapping detections. Transfer learning is employed for re-identification, enabling the association and generation of vehicle tracklets across multiple cameras. Moreover, we leverage appropriate loss functions and distance measures to handle occlusion, illumination, and shadow challenges. The final solution identification module performs feature extraction using ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed framework is evaluated on the 5th AI City Challenge dataset (Track 3), comprising 46 camera feeds. Among these 46 camera streams, 40 are used for model training and validation, while the remaining six are utilized for model testing. The proposed framework achieves competitive performance with an IDF1 score of 0.8289, and precision and recall scores of 0.9026 and 0.8527 respectively, demonstrating its effectiveness in robust and accurate vehicle tracking.

Summary

AI-Generated Summary

PDF21May 4, 2025