Évaluation au niveau du pixel des dégradations de la chaussée par segmentation d'instances

Résumé

L'évaluation automatisée des dégradations de chaussées nécessite davantage qu'une classification au niveau de l'image ou une détection grossière par boîtes englobantes, exigeant une localisation précise des fissures fines, ramifiées et irrégulières afin d'atteindre la précision géométrique requise pour une quantification utile à la maintenance. Cet article présente un système d'analyse des dégradations de chaussées basé sur la vision, utilisant la segmentation d'instances Mask R-CNN, et l'évalue sur UWGB-StreetCrack, un jeu de données d'images routières collectées sur le terrain avec un smartphone monté sur véhicule et annotées manuellement avec des polygones pour les fissures longitudinales, les fissures transversales, les fissures en peau de crocodile et les nids-de-poule. Cinq variantes de l'encodeur de Mask R-CNN basé sur Detectron2 ont été envisagées selon un protocole de réglage fin cohérent. Le modèle le plus performant, Mask R-CNN avec un encodeur ResNet-101 FPN, a atteint une précision de 84,23 %, un rappel de 90,04 % et un score F1 de 87,04 % selon le protocole d'appariement des boîtes englobantes spécifique au projet. Le même modèle a produit une fraction de surface de fissures prédite agrégée de 2,164 %, correspondant étroitement à la fraction de surface de fissures réelle de 2,170 %. Pour contextualiser le système de segmentation par rapport à une alternative orientée détection, un détecteur YOLO basé sur CSPDarknet53 a également été adapté et réentraîné sur le jeu de données, atteignant une précision de 27,5 % et un rappel de 20,7 % selon le protocole de validation. Les résultats montrent que la segmentation d'instances constitue une direction pratique pour l'imagerie de chaussées sur le terrain et l'estimation agrégée de la surface de fissures, tout en exposant des défis ouverts liés à la cohérence des annotations, au déséquilibre des classes, au rejet des facteurs de confusion et à l'évaluation au niveau des masques.

English

Automated pavement distress assessment requires more than image-level classification or coarse bounding box detection, demanding precise localization of thin, branching, and irregular cracks to achieve the geometric precision necessary for maintenance-relevant quantification. This paper presents a vision-based pavement distress analysis system based on Mask R-CNN instance segmentation and evaluates it on UWGB-StreetCrack, a custom field-collected roadway image dataset acquired with a vehicle-mounted smartphone and manually annotated with polygon labels for longitudinal cracks, transverse cracks, alligator cracks, and potholes. Five Detectron2-based Mask R-CNN backbone variants were considered under a consistent fine-tuning protocol. The best-performing model, Mask R-CNN with a ResNet-101 FPN backbone, achieved 84.23% precision, 90.04% recall, and an F1 score of 87.04% under the project-specific bounding-box matching protocol. The same model produced an aggregate predicted crack-area fraction of 2.164%, closely matching the 2.170% ground-truth crack-area fraction. To contextualize the segmentation system against a detector-oriented alternative, a CSPDarknet53-based YOLO detector was also adapted and retrained on the dataset, reaching 27.5% precision and 20.7% recall on the validation protocol. The results show that instance segmentation is a practical direction for field pavement imagery and aggregate crack-area estimation, while also exposing open challenges in annotation consistency, class imbalance, confounder rejection, and mask-level benchmarking.