Mask-to-Height : Une architecture basée sur YOLOv11 pour la segmentation d'instances de bâtiments et la classification de hauteur conjointes à partir d'imagerie satellitaire
Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery
October 31, 2025
papers.authors: Mahmoud El Hussieni, Bahadır K. Güntürk, Hasan F. Ateş, Oğuz Hanoğlu
cs.AI
papers.abstract
La segmentation précise des bâtiments et la classification de leur hauteur sont essentielles pour l'urbanisme, la modélisation 3D des villes et la surveillance des infrastructures. Cet article présente une analyse détaillée de YOLOv11, l'avancée récente de la série de modèles d'apprentissage profond YOLO, en se concentrant sur son application pour l'extraction conjointe des bâtiments et la classification discrète de leur hauteur à partir d'imagerie satellitaire. YOLOv11 s'appuie sur les forces des modèles YOLO antérieurs en introduisant une architecture plus efficace qui combine mieux les caractéristiques à différentes échelles, améliore la précision de localisation des objets et optimise les performances dans les scènes urbaines complexes. En utilisant le jeu de données DFC2023 Track 2 – qui comprend plus de 125 000 bâtiments annotés répartis sur 12 villes – nous évaluons les performances de YOLOv11 avec des métriques telles que la précision, le rappel, le score F1 et la précision moyenne moyenne (mAP). Nos résultats démontrent que YOLOv11 obtient d'excellentes performances en segmentation d'instances avec 60,4 % de mAP@50 et 38,3 % de mAP@50–95 tout en maintenant une robuste précision de classification sur cinq niveaux de hauteur prédéfinis. Le modèle excelle dans le traitement des occlusions, des formes architecturales complexes et du déséquilibre de classes, particulièrement pour les structures élevées rares. L'analyse comparative confirme que YOLOv11 surpasse les frameworks multitâches antérieurs tant en précision de détection qu'en vitesse d'inférence, le rendant particulièrement adapté à la cartographie urbaine en temps réel et à grande échelle. Cette recherche souligne le potentiel de YOLOv11 pour faire progresser la reconstruction sémantique urbaine grâce à une modélisation catégorielle simplifiée des hauteurs, offrant des perspectives opérationnelles pour les futurs développements en télédétection et intelligence géospatiale.
English
Accurate building instance segmentation and height classification are
critical for urban planning, 3D city modeling, and infrastructure monitoring.
This paper presents a detailed analysis of YOLOv11, the recent advancement in
the YOLO series of deep learning models, focusing on its application to joint
building extraction and discrete height classification from satellite imagery.
YOLOv11 builds on the strengths of earlier YOLO models by introducing a more
efficient architecture that better combines features at different scales,
improves object localization accuracy, and enhances performance in complex
urban scenes. Using the DFC2023 Track 2 dataset -- which includes over 125,000
annotated buildings across 12 cities -- we evaluate YOLOv11's performance using
metrics such as precision, recall, F1 score, and mean average precision (mAP).
Our findings demonstrate that YOLOv11 achieves strong instance segmentation
performance with 60.4\% mAP@50 and 38.3\% mAP@50--95 while maintaining robust
classification accuracy across five predefined height tiers. The model excels
in handling occlusions, complex building shapes, and class imbalance,
particularly for rare high-rise structures. Comparative analysis confirms that
YOLOv11 outperforms earlier multitask frameworks in both detection accuracy and
inference speed, making it well-suited for real-time, large-scale urban
mapping. This research highlights YOLOv11's potential to advance semantic urban
reconstruction through streamlined categorical height modeling, offering
actionable insights for future developments in remote sensing and geospatial
intelligence.