Ein robustes Multi-Objekt-Multi-Kamera-Tracking-System auf Basis tiefer neuronaler Netze für den städtischen Verkehrsmaßstab
A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic
May 1, 2025
Autoren: Muhammad Imran Zaman, Usama Ijaz Bajwa, Gulshan Saleem, Rana Hammad Raza
cs.AI
Zusammenfassung
Vision-Sensoren gewinnen in Intelligenten Verkehrssystemen (ITS) für die Verkehrsüberwachung, -steuerung und -optimierung zunehmend an Bedeutung, da die Anzahl der Netzwerkkameras weiter steigt. Die manuelle Objektverfolgung und -zuordnung über mehrere nicht überlappende Kameras hinweg stellt jedoch erhebliche Herausforderungen in städtischen Verkehrsszenarien im Stadtmaßstab dar. Zu diesen Herausforderungen gehören die Handhabung verschiedener Fahrzeugattribute, Verdeckungen, Beleuchtungsvariationen, Schatten und unterschiedliche Videoauflösungen. Um diese Probleme zu bewältigen, schlagen wir ein effizientes und kosteneffektives Deep-Learning-basiertes Framework für Multi-Object Multi-Camera Tracking (MO-MCT) vor. Das vorgeschlagene Framework nutzt Mask R-CNN für die Objekterkennung und setzt Non-Maximum Suppression (NMS) ein, um Zielobjekte aus überlappenden Detektionen auszuwählen. Transfer Learning wird für die Re-Identifikation verwendet, wodurch die Zuordnung und Generierung von Fahrzeug-Tracklets über mehrere Kameras hinweg ermöglicht wird. Darüber hinaus nutzen wir geeignete Verlustfunktionen und Distanzmaße, um Herausforderungen wie Verdeckungen, Beleuchtung und Schatten zu bewältigen. Das Modul zur endgültigen Lösungsidentifikation führt eine Merkmalsextraktion mit ResNet-152 in Kombination mit Deep-SORT-basierter Fahrzeugverfolgung durch. Das vorgeschlagene Framework wird auf dem Dataset der 5. AI City Challenge (Track 3) evaluiert, das 46 Kamerastreams umfasst. Von diesen 46 Kamerastreams werden 40 für das Modelltraining und die Validierung verwendet, während die verbleibenden sechs für die Modelltestung genutzt werden. Das vorgeschlagene Framework erzielt eine wettbewerbsfähige Leistung mit einem IDF1-Score von 0,8289 sowie Präzisions- und Recall-Werten von 0,9026 bzw. 0,8527, was seine Effektivität bei der robusten und präzisen Fahrzeugverfolgung unterstreicht.
English
Vision sensors are becoming more important in Intelligent Transportation
Systems (ITS) for traffic monitoring, management, and optimization as the
number of network cameras continues to rise. However, manual object tracking
and matching across multiple non-overlapping cameras pose significant
challenges in city-scale urban traffic scenarios. These challenges include
handling diverse vehicle attributes, occlusions, illumination variations,
shadows, and varying video resolutions. To address these issues, we propose an
efficient and cost-effective deep learning-based framework for Multi-Object
Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for
object detection and employs Non-Maximum Suppression (NMS) to select target
objects from overlapping detections. Transfer learning is employed for
re-identification, enabling the association and generation of vehicle tracklets
across multiple cameras. Moreover, we leverage appropriate loss functions and
distance measures to handle occlusion, illumination, and shadow challenges. The
final solution identification module performs feature extraction using
ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed
framework is evaluated on the 5th AI City Challenge dataset (Track 3),
comprising 46 camera feeds. Among these 46 camera streams, 40 are used for
model training and validation, while the remaining six are utilized for model
testing. The proposed framework achieves competitive performance with an IDF1
score of 0.8289, and precision and recall scores of 0.9026 and 0.8527
respectively, demonstrating its effectiveness in robust and accurate vehicle
tracking.Summary
AI-Generated Summary