Pixelgenaue Bewertung von Fahrbahnschäden mittels Instanzsegmentierung

Zusammenfassung

Die automatisierte Bewertung von Fahrbahnschäden erfordert mehr als eine Bildklassifikation oder grobe Bounding-Box-Erkennung; sie verlangt eine präzise Lokalisierung feiner, verzweigter und unregelmäßiger Risse, um die für wartungsrelevante Quantifizierungen notwendige geometrische Genauigkeit zu erreichen. In dieser Arbeit wird ein visionbasiertes Analyseverfahren für Fahrbahnschäden vorgestellt, das auf der Instanzsegmentierung mit Mask R-CNN basiert, und anhand von UWGB-StreetCrack evaluiert – einem eigens erstellten, im Feld aufgenommenen Straßenbilddatensatz, der mit einem fahrzeugmontierten Smartphone erfasst und manuell mit Polygonlabels für Längsrisse, Querrisse, Netzrisse und Schlaglöcher versehen wurde. Fünf auf Detectron2 basierende Mask-R-CNN-Backbone-Varianten wurden unter einem einheitlichen Feintuning-Protokoll untersucht. Das leistungsfähigste Modell – Mask R-CNN mit einem ResNet-101-FPN-Backbone – erreichte eine Präzision von 84,23 %, einen Recall von 90,04 % und einen F1-Score von 87,04 % gemäß dem projektspezifischen Bounding-Box-Abgleichprotokoll. Dasselbe Modell lieferte einen aggregierten vorhergesagten Rissflächenanteil von 2,164 %, der nahe am Ground-Truth-Rissflächenanteil von 2,170 % liegt. Zur Kontextualisierung des Segmentierungssystems im Vergleich zu einem detektororientierten Ansatz wurde ein auf CSPDarknet53 basierender YOLO-Detektor ebenfalls angepasst und auf dem Datensatz neu trainiert; er erreichte im Validierungsprotokoll eine Präzision von 27,5 % und einen Recall von 20,7 %. Die Ergebnisse zeigen, dass die Instanzsegmentierung ein praktikabler Ansatz für Feldaufnahmen von Fahrbahnoberflächen und die aggregierte Rissflächenschätzung ist, während gleichzeitig offene Herausforderungen in Bezug auf Annotationskonsistenz, Klassenungleichgewicht, Konfundierungsunterdrückung und maskenbasierte Benchmarking-Verfahren deutlich werden.

English

Automated pavement distress assessment requires more than image-level classification or coarse bounding box detection, demanding precise localization of thin, branching, and irregular cracks to achieve the geometric precision necessary for maintenance-relevant quantification. This paper presents a vision-based pavement distress analysis system based on Mask R-CNN instance segmentation and evaluates it on UWGB-StreetCrack, a custom field-collected roadway image dataset acquired with a vehicle-mounted smartphone and manually annotated with polygon labels for longitudinal cracks, transverse cracks, alligator cracks, and potholes. Five Detectron2-based Mask R-CNN backbone variants were considered under a consistent fine-tuning protocol. The best-performing model, Mask R-CNN with a ResNet-101 FPN backbone, achieved 84.23% precision, 90.04% recall, and an F1 score of 87.04% under the project-specific bounding-box matching protocol. The same model produced an aggregate predicted crack-area fraction of 2.164%, closely matching the 2.170% ground-truth crack-area fraction. To contextualize the segmentation system against a detector-oriented alternative, a CSPDarknet53-based YOLO detector was also adapted and retrained on the dataset, reaching 27.5% precision and 20.7% recall on the validation protocol. The results show that instance segmentation is a practical direction for field pavement imagery and aggregate crack-area estimation, while also exposing open challenges in annotation consistency, class imbalance, confounder rejection, and mask-level benchmarking.