Оценка дефектов дорожного покрытия на уровне пикселей с использованием сегментации экземпляров

Аннотация

Автоматизированная оценка повреждений дорожного покрытия требует не просто классификации на уровне изображений или грубого обнаружения ограничивающих рамок, а точной локализации тонких, разветвлённых и нерегулярных трещин для достижения геометрической точности, необходимой для количественной оценки, значимой для технического обслуживания. В данной статье представлена система анализа повреждений дорожного покрытия на основе компьютерного зрения, использующая сегментацию экземпляров Mask R-CNN, и проведена её оценка на наборе данных UWGB-StreetCrack — специально собранном с помощью автомобильного смартфона наборе изображений дорожного полотна, вручную размеченном полигональными метками для продольных трещин, поперечных трещин, трещин типа «аллигаторова кожа» и выбоин. В рамках единого протокола тонкой настройки было рассмотрено пять вариантов архитектуры Mask R-CNN на основе Detectron2. Лучшая модель — Mask R-CNN с магистральной сетью ResNet-101 FPN — достигла точности 84,23%, полноты 90,04% и F1-меры 87,04% при использовании проектно-специфичного протокола сопоставления ограничивающих рамок. Эта же модель дала совокупную прогнозируемую долю площади трещин 2,164%, что очень близко к истинной доле площади трещин в 2,170%. Для контекстуализации системы сегментации относительно альтернативы, ориентированной на детекцию, детектор YOLO на основе CSPDarknet53 был также адаптирован и заново обучен на наборе данных, достигнув точности 27,5% и полноты 20,7% по протоколу валидации. Результаты показывают, что сегментация экземпляров является практичным направлением для полевых изображений дорожного покрытия и агрегированной оценки площади трещин, одновременно выявляя открытые проблемы, связанные с согласованностью разметки, дисбалансом классов, подавлением confounding-факторов и бенчмаркингом на уровне масок.

English

Automated pavement distress assessment requires more than image-level classification or coarse bounding box detection, demanding precise localization of thin, branching, and irregular cracks to achieve the geometric precision necessary for maintenance-relevant quantification. This paper presents a vision-based pavement distress analysis system based on Mask R-CNN instance segmentation and evaluates it on UWGB-StreetCrack, a custom field-collected roadway image dataset acquired with a vehicle-mounted smartphone and manually annotated with polygon labels for longitudinal cracks, transverse cracks, alligator cracks, and potholes. Five Detectron2-based Mask R-CNN backbone variants were considered under a consistent fine-tuning protocol. The best-performing model, Mask R-CNN with a ResNet-101 FPN backbone, achieved 84.23% precision, 90.04% recall, and an F1 score of 87.04% under the project-specific bounding-box matching protocol. The same model produced an aggregate predicted crack-area fraction of 2.164%, closely matching the 2.170% ground-truth crack-area fraction. To contextualize the segmentation system against a detector-oriented alternative, a CSPDarknet53-based YOLO detector was also adapted and retrained on the dataset, reaching 27.5% precision and 20.7% recall on the validation protocol. The results show that instance segmentation is a practical direction for field pavement imagery and aggregate crack-area estimation, while also exposing open challenges in annotation consistency, class imbalance, confounder rejection, and mask-level benchmarking.