Un système robuste de suivi multi-objets et multi-caméras basé sur des réseaux neuronaux profonds pour le trafic à l'échelle urbaine

papers.abstract

Les capteurs de vision deviennent de plus en plus importants dans les systèmes de transport intelligents (ITS) pour la surveillance, la gestion et l'optimisation du trafic, à mesure que le nombre de caméras réseau continue d'augmenter. Cependant, le suivi et l'appariement manuels d'objets à travers plusieurs caméras non chevauchantes posent des défis significatifs dans les scénarios de trafic urbain à l'échelle de la ville. Ces défis incluent la gestion d'attributs variés des véhicules, des occlusions, des variations d'éclairage, des ombres et des résolutions vidéo variables. Pour résoudre ces problèmes, nous proposons un cadre efficace et économique basé sur l'apprentissage profond pour le suivi multi-objets multi-caméras (MO-MCT). Le cadre proposé utilise Mask R-CNN pour la détection d'objets et emploie la suppression non maximale (NMS) pour sélectionner les objets cibles parmi les détections qui se chevauchent. L'apprentissage par transfert est utilisé pour la ré-identification, permettant l'association et la génération de trajectoires de véhicules à travers plusieurs caméras. De plus, nous exploitons des fonctions de perte et des mesures de distance appropriées pour gérer les défis liés aux occlusions, à l'éclairage et aux ombres. Le module final d'identification de solution effectue l'extraction de caractéristiques en utilisant ResNet-152 couplé au suivi de véhicules basé sur Deep SORT. Le cadre proposé est évalué sur le jeu de données du 5e défi AI City (piste 3), comprenant 46 flux de caméras. Parmi ces 46 flux de caméras, 40 sont utilisés pour l'entraînement et la validation du modèle, tandis que les six restants sont utilisés pour les tests du modèle. Le cadre proposé atteint une performance compétitive avec un score IDF1 de 0,8289, et des scores de précision et de rappel de 0,9026 et 0,8527 respectivement, démontrant son efficacité dans le suivi robuste et précis des véhicules.

English

Vision sensors are becoming more important in Intelligent Transportation Systems (ITS) for traffic monitoring, management, and optimization as the number of network cameras continues to rise. However, manual object tracking and matching across multiple non-overlapping cameras pose significant challenges in city-scale urban traffic scenarios. These challenges include handling diverse vehicle attributes, occlusions, illumination variations, shadows, and varying video resolutions. To address these issues, we propose an efficient and cost-effective deep learning-based framework for Multi-Object Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for object detection and employs Non-Maximum Suppression (NMS) to select target objects from overlapping detections. Transfer learning is employed for re-identification, enabling the association and generation of vehicle tracklets across multiple cameras. Moreover, we leverage appropriate loss functions and distance measures to handle occlusion, illumination, and shadow challenges. The final solution identification module performs feature extraction using ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed framework is evaluated on the 5th AI City Challenge dataset (Track 3), comprising 46 camera feeds. Among these 46 camera streams, 40 are used for model training and validation, while the remaining six are utilized for model testing. The proposed framework achieves competitive performance with an IDF1 score of 0.8289, and precision and recall scores of 0.9026 and 0.8527 respectively, demonstrating its effectiveness in robust and accurate vehicle tracking.

Un système robuste de suivi multi-objets et multi-caméras basé sur des réseaux neuronaux profonds pour le trafic à l'échelle urbaine

A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic

papers.abstract

Support