ChatPaper.aiChatPaper

Um Sistema Robusto de Rastreamento Multiobjeto e Multicâmera Baseado em Redes Neurais Profundas para Tráfego em Escala Urbana

A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic

May 1, 2025
Autores: Muhammad Imran Zaman, Usama Ijaz Bajwa, Gulshan Saleem, Rana Hammad Raza
cs.AI

Resumo

Os sensores visuais estão se tornando cada vez mais importantes nos Sistemas Inteligentes de Transporte (ITS) para monitoramento, gerenciamento e otimização do tráfego, à medida que o número de câmeras de rede continua a aumentar. No entanto, o rastreamento e a correspondência manual de objetos em múltiplas câmeras não sobrepostas apresentam desafios significativos em cenários de tráfego urbano em escala de cidade. Esses desafios incluem lidar com diversos atributos de veículos, oclusões, variações de iluminação, sombras e diferentes resoluções de vídeo. Para abordar essas questões, propomos uma estrutura eficiente e econômica baseada em aprendizado profundo para Rastreamento Multi-Objeto Multi-Câmera (MO-MCT). A estrutura proposta utiliza o Mask R-CNN para detecção de objetos e emprega a Supressão Não-Máxima (NMS) para selecionar objetos-alvo de detecções sobrepostas. A aprendizagem por transferência é utilizada para reidentificação, permitindo a associação e geração de trajetórias de veículos em múltiplas câmeras. Além disso, aproveitamos funções de perda e medidas de distância apropriadas para lidar com os desafios de oclusão, iluminação e sombra. O módulo final de identificação de solução realiza a extração de características usando o ResNet-152, acoplado ao rastreamento de veículos baseado no Deep SORT. A estrutura proposta é avaliada no conjunto de dados do 5º AI City Challenge (Track 3), que compreende 46 feeds de câmera. Dentre esses 46 fluxos de câmera, 40 são usados para treinamento e validação do modelo, enquanto os seis restantes são utilizados para teste do modelo. A estrutura proposta alcança um desempenho competitivo com uma pontuação IDF1 de 0,8289, e pontuações de precisão e recall de 0,9026 e 0,8527, respectivamente, demonstrando sua eficácia no rastreamento robusto e preciso de veículos.
English
Vision sensors are becoming more important in Intelligent Transportation Systems (ITS) for traffic monitoring, management, and optimization as the number of network cameras continues to rise. However, manual object tracking and matching across multiple non-overlapping cameras pose significant challenges in city-scale urban traffic scenarios. These challenges include handling diverse vehicle attributes, occlusions, illumination variations, shadows, and varying video resolutions. To address these issues, we propose an efficient and cost-effective deep learning-based framework for Multi-Object Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for object detection and employs Non-Maximum Suppression (NMS) to select target objects from overlapping detections. Transfer learning is employed for re-identification, enabling the association and generation of vehicle tracklets across multiple cameras. Moreover, we leverage appropriate loss functions and distance measures to handle occlusion, illumination, and shadow challenges. The final solution identification module performs feature extraction using ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed framework is evaluated on the 5th AI City Challenge dataset (Track 3), comprising 46 camera feeds. Among these 46 camera streams, 40 are used for model training and validation, while the remaining six are utilized for model testing. The proposed framework achieves competitive performance with an IDF1 score of 0.8289, and precision and recall scores of 0.9026 and 0.8527 respectively, demonstrating its effectiveness in robust and accurate vehicle tracking.
PDF41May 4, 2025