ChatPaper.aiChatPaper

도시 규모 교통을 위한 강건한 딥러닝 기반 다중 객체 다중 카메라 추적 시스템

A Robust Deep Networks based Multi-Object MultiCamera Tracking System for City Scale Traffic

May 1, 2025
저자: Muhammad Imran Zaman, Usama Ijaz Bajwa, Gulshan Saleem, Rana Hammad Raza
cs.AI

초록

네트워크 카메라의 수가 지속적으로 증가함에 따라, 교통 모니터링, 관리 및 최적화를 위한 지능형 교통 시스템(ITS)에서 비전 센서의 중요성이 더욱 커지고 있습니다. 그러나 도시 규모의 교통 시나리오에서 여러 개의 겹치지 않는 카메라 간의 수동 객체 추적 및 매칭은 상당한 어려움을 야기합니다. 이러한 어려움에는 다양한 차량 속성 처리, 가려짐, 조명 변화, 그림자, 그리고 다양한 비디오 해상도 등이 포함됩니다. 이러한 문제를 해결하기 위해, 우리는 다중 객체 다중 카메라 추적(MO-MCT)을 위한 효율적이고 비용 효율적인 딥러닝 기반 프레임워크를 제안합니다. 제안된 프레임워크는 객체 탐지를 위해 Mask R-CNN을 사용하고, 겹치는 탐지에서 목표 객체를 선택하기 위해 비최대 억제(NMS)를 적용합니다. 재식별을 위해 전이 학습을 사용하여 여러 카메라 간의 차량 트랙렛을 연관시키고 생성합니다. 또한, 가려짐, 조명, 그림자 문제를 처리하기 위해 적절한 손실 함수와 거리 측정 방법을 활용합니다. 최종 솔루션 식별 모듈은 ResNet-152를 사용한 특징 추출과 Deep SORT 기반의 차량 추적을 결합합니다. 제안된 프레임워크는 46개의 카메라 피드로 구성된 5차 AI City Challenge 데이터셋(Track 3)에서 평가되었습니다. 이 46개의 카메라 스트림 중 40개는 모델 학습과 검증에 사용되었고, 나머지 6개는 모델 테스트에 활용되었습니다. 제안된 프레임워크는 IDF1 점수 0.8289, 정밀도 0.9026, 재현율 0.8527의 경쟁력 있는 성능을 달성하여 견고하고 정확한 차량 추적에서의 효과를 입증했습니다.
English
Vision sensors are becoming more important in Intelligent Transportation Systems (ITS) for traffic monitoring, management, and optimization as the number of network cameras continues to rise. However, manual object tracking and matching across multiple non-overlapping cameras pose significant challenges in city-scale urban traffic scenarios. These challenges include handling diverse vehicle attributes, occlusions, illumination variations, shadows, and varying video resolutions. To address these issues, we propose an efficient and cost-effective deep learning-based framework for Multi-Object Multi-Camera Tracking (MO-MCT). The proposed framework utilizes Mask R-CNN for object detection and employs Non-Maximum Suppression (NMS) to select target objects from overlapping detections. Transfer learning is employed for re-identification, enabling the association and generation of vehicle tracklets across multiple cameras. Moreover, we leverage appropriate loss functions and distance measures to handle occlusion, illumination, and shadow challenges. The final solution identification module performs feature extraction using ResNet-152 coupled with Deep SORT based vehicle tracking. The proposed framework is evaluated on the 5th AI City Challenge dataset (Track 3), comprising 46 camera feeds. Among these 46 camera streams, 40 are used for model training and validation, while the remaining six are utilized for model testing. The proposed framework achieves competitive performance with an IDF1 score of 0.8289, and precision and recall scores of 0.9026 and 0.8527 respectively, demonstrating its effectiveness in robust and accurate vehicle tracking.

Summary

AI-Generated Summary

PDF21May 4, 2025