Avaliação de Deterioração do Pavimento em Nível de Pixel Usando Segmentação de Instâncias

Resumo

A avaliação automatizada de deterioração de pavimentos exige mais do que classificação em nível de imagem ou detecção aproximada por caixas delimitadoras, demandando localização precisa de trincas finas, ramificadas e irregulares para alcançar a precisão geométrica necessária à quantificação relevante para manutenção. Este artigo apresenta um sistema de análise de deterioração de pavimentos baseado em visão, fundamentado na segmentação de instâncias Mask R-CNN, e o avalia no UWGB-StreetCrack, um conjunto de dados personalizado de imagens de vias coletadas em campo com um smartphone montado em veículo e anotado manualmente com rótulos poligonais para trincas longitudinais, trincas transversais, trincas de couro de jacaré e buracos. Foram consideradas cinco variantes de backbone Mask R-CNN baseadas em Detectron2, sob um protocolo consistente de ajuste fino. O modelo de melhor desempenho, Mask R-CNN com backbone ResNet-101 FPN, alcançou 84,23% de precisão, 90,04% de revocação e escore F1 de 87,04% no protocolo de correspondência por caixas delimitadoras específico do projeto. O mesmo modelo produziu uma fração agregada de área de trinca prevista de 2,164%, muito próxima da fração de área de trinca real (ground-truth) de 2,170%. Para contextualizar o sistema de segmentação em relação a uma alternativa orientada a detecção, um detector YOLO baseado em CSPDarknet53 também foi adaptado e retreinado no conjunto de dados, atingindo 27,5% de precisão e 20,7% de revocação no protocolo de validação. Os resultados mostram que a segmentação de instâncias é uma direção prática para imagens de pavimento em campo e estimativa agregada de área de trinca, ao mesmo tempo que expõem desafios em aberto relacionados à consistência de anotação, desbalanceamento de classes, rejeição de fatores de confusão e benchmarking em nível de máscara.

English

Automated pavement distress assessment requires more than image-level classification or coarse bounding box detection, demanding precise localization of thin, branching, and irregular cracks to achieve the geometric precision necessary for maintenance-relevant quantification. This paper presents a vision-based pavement distress analysis system based on Mask R-CNN instance segmentation and evaluates it on UWGB-StreetCrack, a custom field-collected roadway image dataset acquired with a vehicle-mounted smartphone and manually annotated with polygon labels for longitudinal cracks, transverse cracks, alligator cracks, and potholes. Five Detectron2-based Mask R-CNN backbone variants were considered under a consistent fine-tuning protocol. The best-performing model, Mask R-CNN with a ResNet-101 FPN backbone, achieved 84.23% precision, 90.04% recall, and an F1 score of 87.04% under the project-specific bounding-box matching protocol. The same model produced an aggregate predicted crack-area fraction of 2.164%, closely matching the 2.170% ground-truth crack-area fraction. To contextualize the segmentation system against a detector-oriented alternative, a CSPDarknet53-based YOLO detector was also adapted and retrained on the dataset, reaching 27.5% precision and 20.7% recall on the validation protocol. The results show that instance segmentation is a practical direction for field pavement imagery and aggregate crack-area estimation, while also exposing open challenges in annotation consistency, class imbalance, confounder rejection, and mask-level benchmarking.