Beoordeling van wegdekschade op pixelniveau met behulp van instantiesegmentatie

Samenvatting

Geautomatiseerde beoordeling van wegbeschadiging vereist meer dan classificatie op afbeeldingsniveau of grove detectie met begrenzingskaders; het vraagt om nauwkeurige lokalisatie van dunne, vertakkende en onregelmatige scheuren om de geometrische precisie te bereiken die nodig is voor onderhoudsrelevante kwantificering. Dit artikel presenteert een op visie gebaseerd wegbeschadigingsanalysesysteem dat gebruikmaakt van Mask R-CNN-instantiesegmentatie en evalueert dit op UWGB-StreetCrack, een eigen, in het veld verzamelde wegoppervlaktebeelddataset verkregen met een in een voertuig gemonteerde smartphone en handmatig geannoteerd met polygoonlabels voor longitudinale scheuren, transversale scheuren, krokodillenscheuren en kuilen. Vijf op Detectron2 gebaseerde Mask R-CNN-backbonevarianten werden overwogen onder een consistent fijnstemmingsprotocol. Het best presterende model, Mask R-CNN met een ResNet-101 FPN-backbone, behaalde een precisie van 84,23%, een recall van 90,04% en een F1-score van 87,04% onder het projectspecifieke protocol voor matching met begrenzingskaders. Hetzelfde model produceerde een geaggregeerde voorspelde scheuroppervlaktefractie van 2,164%, die dicht in de buurt komt van de grondwaarheid-scheuroppervlaktefractie van 2,170%. Om het segmentatiesysteem in context te plaatsen ten opzichte van een detectiegericht alternatief, werd ook een op CSPDarknet53 gebaseerde YOLO-detector aangepast en opnieuw getraind op de dataset, wat resulteerde in een precisie van 27,5% en een recall van 20,7% in het validatieprotocol. De resultaten tonen aan dat instantiesegmentatie een praktische richting is voor wegoppervlaktebeelden in het veld en voor geaggregeerde scheuroppervlakteschatting, terwijl ook openstaande uitdagingen worden blootgelegd op het gebied van annotatieconsistentie, klasse-onbalans, confounder-rejectie en maskerniveau-benchmarking.

English

Automated pavement distress assessment requires more than image-level classification or coarse bounding box detection, demanding precise localization of thin, branching, and irregular cracks to achieve the geometric precision necessary for maintenance-relevant quantification. This paper presents a vision-based pavement distress analysis system based on Mask R-CNN instance segmentation and evaluates it on UWGB-StreetCrack, a custom field-collected roadway image dataset acquired with a vehicle-mounted smartphone and manually annotated with polygon labels for longitudinal cracks, transverse cracks, alligator cracks, and potholes. Five Detectron2-based Mask R-CNN backbone variants were considered under a consistent fine-tuning protocol. The best-performing model, Mask R-CNN with a ResNet-101 FPN backbone, achieved 84.23% precision, 90.04% recall, and an F1 score of 87.04% under the project-specific bounding-box matching protocol. The same model produced an aggregate predicted crack-area fraction of 2.164%, closely matching the 2.170% ground-truth crack-area fraction. To contextualize the segmentation system against a detector-oriented alternative, a CSPDarknet53-based YOLO detector was also adapted and retrained on the dataset, reaching 27.5% precision and 20.7% recall on the validation protocol. The results show that instance segmentation is a practical direction for field pavement imagery and aggregate crack-area estimation, while also exposing open challenges in annotation consistency, class imbalance, confounder rejection, and mask-level benchmarking.