Un Sistema Robusto di Tracciamento Multi-Oggetto e Multi-Camera basato su Reti Neurali Profonde per il Traffico su Scala Urbana
A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic
May 1, 2025
Autori: Muhammad Imran Zaman, Usama Ijaz Bajwa, Gulshan Saleem, Rana Hammad Raza
cs.AI
Abstract
I sensori visivi stanno diventando sempre più importanti nei Sistemi di Trasporto Intelligenti (ITS) per il monitoraggio, la gestione e l'ottimizzazione del traffico, poiché il numero di telecamere di rete continua ad aumentare. Tuttavia, il tracciamento e l'abbinamento manuale degli oggetti attraverso più telecamere non sovrapposte presentano sfide significative negli scenari di traffico urbano su scala cittadina. Queste sfide includono la gestione di attributi veicolari diversi, occlusioni, variazioni di illuminazione, ombre e risoluzioni video variabili. Per affrontare questi problemi, proponiamo un framework efficiente e conveniente basato sul deep learning per il Multi-Object Multi-Camera Tracking (MO-MCT). Il framework proposto utilizza Mask R-CNN per il rilevamento degli oggetti e impiega la Non-Maximum Suppression (NMS) per selezionare gli oggetti target dai rilevamenti sovrapposti. Viene utilizzato il transfer learning per la ri-identificazione, consentendo l'associazione e la generazione di tracce veicolari attraverso più telecamere. Inoltre, sfruttiamo funzioni di perdita e misure di distanza appropriate per gestire le sfide legate a occlusioni, illuminazione e ombre. Il modulo finale di identificazione della soluzione esegue l'estrazione delle caratteristiche utilizzando ResNet-152 abbinato al tracciamento veicolare basato su Deep SORT. Il framework proposto è valutato sul dataset della 5a AI City Challenge (Track 3), che comprende 46 feed di telecamere. Tra questi 46 flussi di telecamere, 40 sono utilizzati per l'addestramento e la validazione del modello, mentre i restanti sei sono utilizzati per il test del modello. Il framework proposto raggiunge prestazioni competitive con un punteggio IDF1 di 0,8289, e punteggi di precisione e richiamo rispettivamente di 0,9026 e 0,8527, dimostrando la sua efficacia nel tracciamento veicolare robusto e accurato.
English
Vision sensors are becoming more important in Intelligent Transportation
Systems (ITS) for traffic monitoring, management, and optimization as the
number of network cameras continues to rise. However, manual object tracking
and matching across multiple non-overlapping cameras pose significant
challenges in city-scale urban traffic scenarios. These challenges include
handling diverse vehicle attributes, occlusions, illumination variations,
shadows, and varying video resolutions. To address these issues, we propose an
efficient and cost-effective deep learning-based framework for Multi-Object
Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for
object detection and employs Non-Maximum Suppression (NMS) to select target
objects from overlapping detections. Transfer learning is employed for
re-identification, enabling the association and generation of vehicle tracklets
across multiple cameras. Moreover, we leverage appropriate loss functions and
distance measures to handle occlusion, illumination, and shadow challenges. The
final solution identification module performs feature extraction using
ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed
framework is evaluated on the 5th AI City Challenge dataset (Track 3),
comprising 46 camera feeds. Among these 46 camera streams, 40 are used for
model training and validation, while the remaining six are utilized for model
testing. The proposed framework achieves competitive performance with an IDF1
score of 0.8289, and precision and recall scores of 0.9026 and 0.8527
respectively, demonstrating its effectiveness in robust and accurate vehicle
tracking.