Mask-to-Height: Un'architettura basata su YOLOv11 per la Segmentazione di Istanze Edilizie e la Classificazione dell'Altezza Congiunta da Immagini Satellitari
Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery
October 31, 2025
Autori: Mahmoud El Hussieni, Bahadır K. Güntürk, Hasan F. Ateş, Oğuz Hanoğlu
cs.AI
Abstract
La segmentazione accurata delle istanze edilizie e la classificazione dell'altezza sono fondamentali per la pianificazione urbana, la modellazione 3D delle città e il monitoraggio delle infrastrutture. Questo articolo presenta un'analisi dettagliata di YOLOv11, il recente progresso nella serie di modelli di deep learning YOLO, concentrandosi sulla sua applicazione per l'estrazione congiunta degli edifici e la classificazione discreta dell'altezza da immagini satellitari. YOLOv11 si basa sui punti di forza dei modelli YOLO precedenti introducendo un'architettura più efficiente che combina meglio le caratteristiche a diverse scale, migliora l'accuratezza della localizzazione degli oggetti e potenzia le prestazioni in scenari urbani complessi. Utilizzando il dataset DFC2023 Track 2 – che include oltre 125.000 edifici annotati in 12 città – valutiamo le prestazioni di YOLOv11 utilizzando metriche come precisione, recall, punteggio F1 e precisione media media (mAP). I nostri risultati dimostrano che YOLOv11 raggiunge solide prestazioni di segmentazione delle istanze con il 60,4% di mAP@50 e il 38,3% di mAP@50-95, mantenendo al contempo una robusta accuratezza di classificazione attraverso cinque fasce di altezza predefinite. Il modello eccelle nella gestione delle occlusioni, delle forme edilizie complesse e dello squilibrio delle classi, in particolare per le rare strutture a torre. L'analisi comparativa conferma che YOLOv11 supera i framework multitask precedenti sia in accuratezza di rilevamento che in velocità di inferenza, rendendolo adatto per la mappatura urbana in tempo reale e su larga scala. Questa ricerca evidenzia il potenziale di YOLOv11 di far progredire la ricostruzione urbana semantica attraverso una modellazione categoriale dell'altezza semplificata, offrendo spunti operativi per i futuri sviluppi nel telerilevamento e nell'intelligenza geospaziale.
English
Accurate building instance segmentation and height classification are
critical for urban planning, 3D city modeling, and infrastructure monitoring.
This paper presents a detailed analysis of YOLOv11, the recent advancement in
the YOLO series of deep learning models, focusing on its application to joint
building extraction and discrete height classification from satellite imagery.
YOLOv11 builds on the strengths of earlier YOLO models by introducing a more
efficient architecture that better combines features at different scales,
improves object localization accuracy, and enhances performance in complex
urban scenes. Using the DFC2023 Track 2 dataset -- which includes over 125,000
annotated buildings across 12 cities -- we evaluate YOLOv11's performance using
metrics such as precision, recall, F1 score, and mean average precision (mAP).
Our findings demonstrate that YOLOv11 achieves strong instance segmentation
performance with 60.4\% mAP@50 and 38.3\% mAP@50--95 while maintaining robust
classification accuracy across five predefined height tiers. The model excels
in handling occlusions, complex building shapes, and class imbalance,
particularly for rare high-rise structures. Comparative analysis confirms that
YOLOv11 outperforms earlier multitask frameworks in both detection accuracy and
inference speed, making it well-suited for real-time, large-scale urban
mapping. This research highlights YOLOv11's potential to advance semantic urban
reconstruction through streamlined categorical height modeling, offering
actionable insights for future developments in remote sensing and geospatial
intelligence.