Een Robuust Multi-Object Multi-Camera Volgsysteem op Basis van Diepe Netwerken voor Stedelijk Verkeer op Schaal
A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic
May 1, 2025
Auteurs: Muhammad Imran Zaman, Usama Ijaz Bajwa, Gulshan Saleem, Rana Hammad Raza
cs.AI
Samenvatting
Visiesensoren worden steeds belangrijker in Intelligente Transport Systemen (ITS) voor verkeersmonitoring, -beheer en -optimalisatie, aangezien het aantal netwerkcamera's blijft toenemen. Het handmatig volgen en matchen van objecten over meerdere niet-overlappende camera's vormt echter aanzienlijke uitdagingen in stedelijke verkeersscenario's op stadsniveau. Deze uitdagingen omvatten het omgaan met diverse voertuigkenmerken, occlusies, variaties in belichting, schaduwen en verschillende videoresoluties. Om deze problemen aan te pakken, stellen we een efficiënt en kosteneffectief deep learning-gebaseerd framework voor voor Multi-Object Multi-Camera Tracking (MO-MCT). Het voorgestelde framework maakt gebruik van Mask R-CNN voor objectdetectie en past Non-Maximum Suppression (NMS) toe om doelobjecten te selecteren uit overlappende detecties. Transfer learning wordt gebruikt voor heridentificatie, waardoor de associatie en generatie van voertuigtracklets over meerdere camera's mogelijk wordt. Bovendien benutten we geschikte verliesfuncties en afstandsmaten om uitdagingen zoals occlusie, belichting en schaduwen aan te pakken. De module voor definitieve oplossingsidentificatie voert kenmerkextractie uit met behulp van ResNet-152 in combinatie met Deep SORT-gebaseerd voertuigvolgen. Het voorgestelde framework wordt geëvalueerd op de dataset van de 5e AI City Challenge (Track 3), bestaande uit 46 camerafeeds. Van deze 46 camerastromen worden er 40 gebruikt voor modeltraining en -validatie, terwijl de overige zes worden gebruikt voor modeltesten. Het voorgestelde framework behaalt een competitieve prestatie met een IDF1-score van 0,8289, en precisie- en recall-scores van respectievelijk 0,9026 en 0,8527, wat de effectiviteit aantoont in robuust en nauwkeurig voertuigvolgen.
English
Vision sensors are becoming more important in Intelligent Transportation
Systems (ITS) for traffic monitoring, management, and optimization as the
number of network cameras continues to rise. However, manual object tracking
and matching across multiple non-overlapping cameras pose significant
challenges in city-scale urban traffic scenarios. These challenges include
handling diverse vehicle attributes, occlusions, illumination variations,
shadows, and varying video resolutions. To address these issues, we propose an
efficient and cost-effective deep learning-based framework for Multi-Object
Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for
object detection and employs Non-Maximum Suppression (NMS) to select target
objects from overlapping detections. Transfer learning is employed for
re-identification, enabling the association and generation of vehicle tracklets
across multiple cameras. Moreover, we leverage appropriate loss functions and
distance measures to handle occlusion, illumination, and shadow challenges. The
final solution identification module performs feature extraction using
ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed
framework is evaluated on the 5th AI City Challenge dataset (Track 3),
comprising 46 camera feeds. Among these 46 camera streams, 40 are used for
model training and validation, while the remaining six are utilized for model
testing. The proposed framework achieves competitive performance with an IDF1
score of 0.8289, and precision and recall scores of 0.9026 and 0.8527
respectively, demonstrating its effectiveness in robust and accurate vehicle
tracking.