Надежная система многокамерного отслеживания множества объектов на основе глубоких нейронных сетей для городского масштаба трафика
A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic
May 1, 2025
Авторы: Muhammad Imran Zaman, Usama Ijaz Bajwa, Gulshan Saleem, Rana Hammad Raza
cs.AI
Аннотация
Визуальные сенсоры приобретают все большее значение в интеллектуальных транспортных системах (ITS) для мониторинга, управления и оптимизации трафика, поскольку количество сетевых камер продолжает расти. Однако ручное отслеживание и сопоставление объектов между несколькими неперекрывающимися камерами представляют значительные трудности в городских сценариях масштаба мегаполиса. Эти трудности включают обработку разнообразных атрибутов транспортных средств, окклюзии, вариации освещения, тени и различия в разрешении видео. Для решения этих проблем мы предлагаем эффективную и экономичную платформу на основе глубокого обучения для многокамерного отслеживания множества объектов (MO-MCT). Предлагаемая платформа использует Mask R-CNN для обнаружения объектов и применяет метод подавления немаксимумов (NMS) для выбора целевых объектов из перекрывающихся обнаружений. Для повторной идентификации используется трансферное обучение, что позволяет ассоциировать и генерировать треки транспортных средств между несколькими камерами. Кроме того, мы применяем подходящие функции потерь и метрики расстояния для обработки проблем, связанных с окклюзиями, освещением и тенями. Модуль окончательной идентификации решения выполняет извлечение признаков с использованием ResNet-152 в сочетании с отслеживанием транспортных средств на основе Deep SORT. Предлагаемая платформа оценивается на наборе данных 5-го конкурса AI City Challenge (Трек 3), включающем 46 видеопотоков с камер. Из этих 46 потоков 40 используются для обучения и валидации модели, а оставшиеся шесть — для тестирования модели. Предлагаемая платформа демонстрирует конкурентоспособные результаты с показателем IDF1 0,8289, а также точностью и полнотой 0,9026 и 0,8527 соответственно, что подтверждает ее эффективность в надежном и точном отслеживании транспортных средств.
English
Vision sensors are becoming more important in Intelligent Transportation
Systems (ITS) for traffic monitoring, management, and optimization as the
number of network cameras continues to rise. However, manual object tracking
and matching across multiple non-overlapping cameras pose significant
challenges in city-scale urban traffic scenarios. These challenges include
handling diverse vehicle attributes, occlusions, illumination variations,
shadows, and varying video resolutions. To address these issues, we propose an
efficient and cost-effective deep learning-based framework for Multi-Object
Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for
object detection and employs Non-Maximum Suppression (NMS) to select target
objects from overlapping detections. Transfer learning is employed for
re-identification, enabling the association and generation of vehicle tracklets
across multiple cameras. Moreover, we leverage appropriate loss functions and
distance measures to handle occlusion, illumination, and shadow challenges. The
final solution identification module performs feature extraction using
ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed
framework is evaluated on the 5th AI City Challenge dataset (Track 3),
comprising 46 camera feeds. Among these 46 camera streams, 40 are used for
model training and validation, while the remaining six are utilized for model
testing. The proposed framework achieves competitive performance with an IDF1
score of 0.8289, and precision and recall scores of 0.9026 and 0.8527
respectively, demonstrating its effectiveness in robust and accurate vehicle
tracking.Summary
AI-Generated Summary