Evaluación a nivel de píxel del deterioro del pavimento mediante segmentación de instancias

Resumen

La evaluación automatizada de daños en pavimentos requiere más que una clasificación a nivel de imagen o una detección aproximada con cajas delimitadoras, pues exige la localización precisa de grietas finas, ramificadas e irregulares para alcanzar la precisión geométrica necesaria para una cuantificación relevante al mantenimiento. Este artículo presenta un sistema de análisis de daños en pavimentos basado en visión, fundamentado en la segmentación de instancias Mask R-CNN, y lo evalúa en UWGB-StreetCrack, un conjunto de datos de imágenes de carreteras recolectadas en campo con un teléfono inteligente montado en un vehículo y anotadas manualmente con etiquetas poligonales para grietas longitudinales, grietas transversales, grietas de piel de cocodrilo y baches. Se consideraron cinco variantes de backbone de Mask R-CNN basadas en Detectron2 bajo un protocolo consistente de ajuste fino. El modelo con mejor rendimiento, Mask R-CNN con un backbone ResNet-101 FPN, alcanzó una precisión del 84,23%, una exhaustividad del 90,04% y una puntuación F1 del 87,04% bajo el protocolo de coincidencia de cajas delimitadoras específico del proyecto. El mismo modelo produjo una fracción agregada de área de grieta predicha del 2,164%, que coincide estrechamente con la fracción de área de grieta real del 2,170%. Para contextualizar el sistema de segmentación frente a una alternativa orientada a la detección, también se adaptó y reentrenó un detector YOLO basado en CSPDarknet53 en el conjunto de datos, alcanzando una precisión del 27,5% y una exhaustividad del 20,7% en el protocolo de validación. Los resultados muestran que la segmentación de instancias es una dirección práctica para imágenes de pavimento en campo y la estimación agregada del área de grietas, al tiempo que exponen desafíos abiertos en la consistencia de la anotación, el desbalance de clases, la eliminación de factores de confusión y la evaluación comparativa a nivel de máscara.

English

Automated pavement distress assessment requires more than image-level classification or coarse bounding box detection, demanding precise localization of thin, branching, and irregular cracks to achieve the geometric precision necessary for maintenance-relevant quantification. This paper presents a vision-based pavement distress analysis system based on Mask R-CNN instance segmentation and evaluates it on UWGB-StreetCrack, a custom field-collected roadway image dataset acquired with a vehicle-mounted smartphone and manually annotated with polygon labels for longitudinal cracks, transverse cracks, alligator cracks, and potholes. Five Detectron2-based Mask R-CNN backbone variants were considered under a consistent fine-tuning protocol. The best-performing model, Mask R-CNN with a ResNet-101 FPN backbone, achieved 84.23% precision, 90.04% recall, and an F1 score of 87.04% under the project-specific bounding-box matching protocol. The same model produced an aggregate predicted crack-area fraction of 2.164%, closely matching the 2.170% ground-truth crack-area fraction. To contextualize the segmentation system against a detector-oriented alternative, a CSPDarknet53-based YOLO detector was also adapted and retrained on the dataset, reaching 27.5% precision and 20.7% recall on the validation protocol. The results show that instance segmentation is a practical direction for field pavement imagery and aggregate crack-area estimation, while also exposing open challenges in annotation consistency, class imbalance, confounder rejection, and mask-level benchmarking.