ChatPaper.aiChatPaper

Máscara-a-Altura: Una Arquitectura Basada en YOLOv11 para la Segmentación de Instancias de Edificios y Clasificación de Altura Conjunta a partir de Imágenes Satelitales

Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery

October 31, 2025
Autores: Mahmoud El Hussieni, Bahadır K. Güntürk, Hasan F. Ateş, Oğuz Hanoğlu
cs.AI

Resumen

La segmentación precisa de instancias de edificios y la clasificación de alturas son críticas para la planificación urbana, el modelado 3D de ciudades y el monitoreo de infraestructuras. Este artículo presenta un análisis detallado de YOLOv11, el avance más reciente en la serie de modelos de aprendizaje profundo YOLO, centrándose en su aplicación para la extracción conjunta de edificios y la clasificación discreta de alturas a partir de imágenes satelitales. YOLOv11 se basa en las fortalezas de los modelos YOLO anteriores al introducir una arquitectura más eficiente que combina mejor las características en diferentes escalas, mejora la precisión de la localización de objetos y optimiza el rendimiento en escenas urbanas complejas. Utilizando el conjunto de datos DFC2023 Track 2 —que incluye más de 125,000 edificios anotados en 12 ciudades— evaluamos el rendimiento de YOLOv11 mediante métricas como precisión, exhaustividad, puntuación F1 y precisión media promedio (mAP). Nuestros hallazgos demuestran que YOLOv11 logra un sólido rendimiento en segmentación de instancias con 60.4% mAP@50 y 38.3% mAP@50–95, manteniendo una precisión de clasificación robusta en cinco niveles de altura predefinidos. El modelo sobresale en el manejo de oclusiones, formas complejas de edificios y desequilibrio de clases, particularmente para estructuras poco comunes de gran altura. El análisis comparativo confirma que YOLOv11 supera a los marcos multitarea anteriores tanto en precisión de detección como en velocidad de inferencia, haciéndolo idóneo para el mapeo urbano a gran escala en tiempo real. Esta investigación subraya el potencial de YOLOv11 para avanzar en la reconstrucción urbana semántica mediante un modelado categórico de alturas optimizado, ofreciendo perspectivas accionables para futuros desarrollos en teledetección e inteligencia geoespacial.
English
Accurate building instance segmentation and height classification are critical for urban planning, 3D city modeling, and infrastructure monitoring. This paper presents a detailed analysis of YOLOv11, the recent advancement in the YOLO series of deep learning models, focusing on its application to joint building extraction and discrete height classification from satellite imagery. YOLOv11 builds on the strengths of earlier YOLO models by introducing a more efficient architecture that better combines features at different scales, improves object localization accuracy, and enhances performance in complex urban scenes. Using the DFC2023 Track 2 dataset -- which includes over 125,000 annotated buildings across 12 cities -- we evaluate YOLOv11's performance using metrics such as precision, recall, F1 score, and mean average precision (mAP). Our findings demonstrate that YOLOv11 achieves strong instance segmentation performance with 60.4\% mAP@50 and 38.3\% mAP@50--95 while maintaining robust classification accuracy across five predefined height tiers. The model excels in handling occlusions, complex building shapes, and class imbalance, particularly for rare high-rise structures. Comparative analysis confirms that YOLOv11 outperforms earlier multitask frameworks in both detection accuracy and inference speed, making it well-suited for real-time, large-scale urban mapping. This research highlights YOLOv11's potential to advance semantic urban reconstruction through streamlined categorical height modeling, offering actionable insights for future developments in remote sensing and geospatial intelligence.
PDF21December 2, 2025