ChatPaper.aiChatPaper

Оценка дефектов дорожного покрытия на уровне пикселей с использованием сегментации экземпляров

Pixel-Level Pavement Distress Assessment Using Instance Segmentation

May 25, 2026
Авторы: Logan Dewick, Bibesh Pyakurel, Kong Pheng Yang, Nazim Choudhury, M. G. Sarwar Murshed
cs.AI

Аннотация

Автоматизированная оценка повреждений дорожного покрытия требует не просто классификации на уровне изображений или грубого обнаружения ограничивающих рамок, а точной локализации тонких, разветвлённых и нерегулярных трещин для достижения геометрической точности, необходимой для количественной оценки, значимой для технического обслуживания. В данной статье представлена система анализа повреждений дорожного покрытия на основе компьютерного зрения, использующая сегментацию экземпляров Mask R-CNN, и проведена её оценка на наборе данных UWGB-StreetCrack — специально собранном с помощью автомобильного смартфона наборе изображений дорожного полотна, вручную размеченном полигональными метками для продольных трещин, поперечных трещин, трещин типа «аллигаторова кожа» и выбоин. В рамках единого протокола тонкой настройки было рассмотрено пять вариантов архитектуры Mask R-CNN на основе Detectron2. Лучшая модель — Mask R-CNN с магистральной сетью ResNet-101 FPN — достигла точности 84,23%, полноты 90,04% и F1-меры 87,04% при использовании проектно-специфичного протокола сопоставления ограничивающих рамок. Эта же модель дала совокупную прогнозируемую долю площади трещин 2,164%, что очень близко к истинной доле площади трещин в 2,170%. Для контекстуализации системы сегментации относительно альтернативы, ориентированной на детекцию, детектор YOLO на основе CSPDarknet53 был также адаптирован и заново обучен на наборе данных, достигнув точности 27,5% и полноты 20,7% по протоколу валидации. Результаты показывают, что сегментация экземпляров является практичным направлением для полевых изображений дорожного покрытия и агрегированной оценки площади трещин, одновременно выявляя открытые проблемы, связанные с согласованностью разметки, дисбалансом классов, подавлением confounding-факторов и бенчмаркингом на уровне масок.
English
Automated pavement distress assessment requires more than image-level classification or coarse bounding box detection, demanding precise localization of thin, branching, and irregular cracks to achieve the geometric precision necessary for maintenance-relevant quantification. This paper presents a vision-based pavement distress analysis system based on Mask R-CNN instance segmentation and evaluates it on UWGB-StreetCrack, a custom field-collected roadway image dataset acquired with a vehicle-mounted smartphone and manually annotated with polygon labels for longitudinal cracks, transverse cracks, alligator cracks, and potholes. Five Detectron2-based Mask R-CNN backbone variants were considered under a consistent fine-tuning protocol. The best-performing model, Mask R-CNN with a ResNet-101 FPN backbone, achieved 84.23% precision, 90.04% recall, and an F1 score of 87.04% under the project-specific bounding-box matching protocol. The same model produced an aggregate predicted crack-area fraction of 2.164%, closely matching the 2.170% ground-truth crack-area fraction. To contextualize the segmentation system against a detector-oriented alternative, a CSPDarknet53-based YOLO detector was also adapted and retrained on the dataset, reaching 27.5% precision and 20.7% recall on the validation protocol. The results show that instance segmentation is a practical direction for field pavement imagery and aggregate crack-area estimation, while also exposing open challenges in annotation consistency, class imbalance, confounder rejection, and mask-level benchmarking.