ChatPaper.aiChatPaper

Máscara para Altura: Uma Arquitetura Baseada em YOLOv11 para Segmentação de Instâncias de Edifícios e Classificação de Altura Conjuntas a partir de Imagens de Satélite

Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery

October 31, 2025
Autores: Mahmoud El Hussieni, Bahadır K. Güntürk, Hasan F. Ateş, Oğuz Hanoğlu
cs.AI

Resumo

A segmentação precisa de instâncias de edifícios e a classificação de altura são críticas para o planeamento urbano, modelação 3D de cidades e monitorização de infraestruturas. Este artigo apresenta uma análise detalhada do YOLOv11, o avanço recente na série de modelos de aprendizagem profunda YOLO, focando na sua aplicação para extração conjunta de edifícios e classificação discreta de altura a partir de imagens de satélite. O YOLOv11 baseia-se nos pontos fortes dos modelos YOLO anteriores, introduzindo uma arquitetura mais eficiente que combina melhor características em diferentes escalas, melhora a precisão da localização de objetos e aumenta o desempenho em cenas urbanas complexas. Utilizando o conjunto de dados DFC2023 Track 2 – que inclui mais de 125.000 edifícios anotados em 12 cidades – avaliamos o desempenho do YOLOv11 usando métricas como precisão, recall, pontuação F1 e precisão média média (mAP). Os nossos resultados demonstram que o YOLOv11 alcança um forte desempenho de segmentação de instâncias com 60,4% mAP@50 e 38,3% mAP@50–95, mantendo uma robusta precisão de classificação em cinco níveis de altura predefinidos. O modelo destaca-se no tratamento de oclusões, formas complexas de edifícios e desequilíbrio de classes, particularmente para estruturas raras de grande altura. A análise comparativa confirma que o YOLOv11 supera as arquiteturas multitarefa anteriores tanto na precisão de deteção como na velocidade de inferência, tornando-o adequado para mapeamento urbano em larga escala e em tempo real. Esta pesquisa destaca o potencial do YOLOv11 para avançar a reconstrução urbana semântica através de uma modelação de altura categórica simplificada, oferecendo perspetivas acionáveis para futuros desenvolvimentos em deteção remota e inteligência geoespacial.
English
Accurate building instance segmentation and height classification are critical for urban planning, 3D city modeling, and infrastructure monitoring. This paper presents a detailed analysis of YOLOv11, the recent advancement in the YOLO series of deep learning models, focusing on its application to joint building extraction and discrete height classification from satellite imagery. YOLOv11 builds on the strengths of earlier YOLO models by introducing a more efficient architecture that better combines features at different scales, improves object localization accuracy, and enhances performance in complex urban scenes. Using the DFC2023 Track 2 dataset -- which includes over 125,000 annotated buildings across 12 cities -- we evaluate YOLOv11's performance using metrics such as precision, recall, F1 score, and mean average precision (mAP). Our findings demonstrate that YOLOv11 achieves strong instance segmentation performance with 60.4\% mAP@50 and 38.3\% mAP@50--95 while maintaining robust classification accuracy across five predefined height tiers. The model excels in handling occlusions, complex building shapes, and class imbalance, particularly for rare high-rise structures. Comparative analysis confirms that YOLOv11 outperforms earlier multitask frameworks in both detection accuracy and inference speed, making it well-suited for real-time, large-scale urban mapping. This research highlights YOLOv11's potential to advance semantic urban reconstruction through streamlined categorical height modeling, offering actionable insights for future developments in remote sensing and geospatial intelligence.
PDF31February 7, 2026