ChatPaper.aiChatPaper

Un Sistema Robusto de Seguimiento Multiobjeto y Multicámara Basado en Redes Neuronales Profundas para el Tráfico a Escala Urbana

A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic

May 1, 2025
Autores: Muhammad Imran Zaman, Usama Ijaz Bajwa, Gulshan Saleem, Rana Hammad Raza
cs.AI

Resumen

Los sensores de visión están adquiriendo mayor importancia en los Sistemas de Transporte Inteligente (ITS) para el monitoreo, gestión y optimización del tráfico, a medida que el número de cámaras en red sigue aumentando. Sin embargo, el seguimiento y emparejamiento manual de objetos a través de múltiples cámaras no superpuestas presenta desafíos significativos en escenarios de tráfico urbano a escala de ciudad. Estos desafíos incluyen manejar diversos atributos de vehículos, oclusiones, variaciones de iluminación, sombras y diferentes resoluciones de video. Para abordar estos problemas, proponemos un marco de trabajo basado en aprendizaje profundo, eficiente y rentable, para el Seguimiento de Múltiples Objetos en Múltiples Cámaras (MO-MCT). El marco propuesto utiliza Mask R-CNN para la detección de objetos y emplea la Supresión No Máxima (NMS) para seleccionar objetos objetivo de detecciones superpuestas. Se utiliza el aprendizaje por transferencia para la re-identificación, permitiendo la asociación y generación de trayectorias de vehículos a través de múltiples cámaras. Además, aprovechamos funciones de pérdida y medidas de distancia apropiadas para manejar los desafíos de oclusión, iluminación y sombras. El módulo final de identificación de soluciones realiza la extracción de características utilizando ResNet-152 junto con el seguimiento de vehículos basado en Deep SORT. El marco propuesto se evalúa en el conjunto de datos del 5º Desafío AI City (Pista 3), que comprende 46 flujos de cámaras. De estos 46 flujos de cámaras, 40 se utilizan para el entrenamiento y validación del modelo, mientras que los seis restantes se emplean para la prueba del modelo. El marco propuesto logra un rendimiento competitivo con una puntuación IDF1 de 0.8289, y puntuaciones de precisión y recuperación de 0.9026 y 0.8527 respectivamente, demostrando su eficacia en el seguimiento robusto y preciso de vehículos.
English
Vision sensors are becoming more important in Intelligent Transportation Systems (ITS) for traffic monitoring, management, and optimization as the number of network cameras continues to rise. However, manual object tracking and matching across multiple non-overlapping cameras pose significant challenges in city-scale urban traffic scenarios. These challenges include handling diverse vehicle attributes, occlusions, illumination variations, shadows, and varying video resolutions. To address these issues, we propose an efficient and cost-effective deep learning-based framework for Multi-Object Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for object detection and employs Non-Maximum Suppression (NMS) to select target objects from overlapping detections. Transfer learning is employed for re-identification, enabling the association and generation of vehicle tracklets across multiple cameras. Moreover, we leverage appropriate loss functions and distance measures to handle occlusion, illumination, and shadow challenges. The final solution identification module performs feature extraction using ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed framework is evaluated on the 5th AI City Challenge dataset (Track 3), comprising 46 camera feeds. Among these 46 camera streams, 40 are used for model training and validation, while the remaining six are utilized for model testing. The proposed framework achieves competitive performance with an IDF1 score of 0.8289, and precision and recall scores of 0.9026 and 0.8527 respectively, demonstrating its effectiveness in robust and accurate vehicle tracking.

Summary

AI-Generated Summary

PDF21May 4, 2025