ChatPaper.aiChatPaper

Mask-to-Height: Eine auf YOLOv11 basierende Architektur zur gemeinsamen Gebäudeinstanzsegmentierung und Höhenklassifizierung aus Satellitenbildern

Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery

October 31, 2025
papers.authors: Mahmoud El Hussieni, Bahadır K. Güntürk, Hasan F. Ateş, Oğuz Hanoğlu
cs.AI

papers.abstract

Eine präzise Instanzsegmentierung von Gebäuden und deren Höhenklassifizierung sind entscheidend für die Stadtplanung, 3D-Stadtmodellierung und die Infrastrukturüberwachung. Dieses Papier stellt eine detaillierte Analyse von YOLOv11 vor, dem jüngsten Fortschritt in der YOLO-Reihe von Deep-Learning-Modellen, mit Fokus auf dessen Anwendung zur kombinierten Gebäudeextraktion und diskreten Höhenklassifizierung aus Satellitenbildern. YOLOv11 baut auf den Stärken früherer YOLO-Modelle auf, indem es eine effizientere Architektur einführt, die Merkmale auf verschiedenen Skalen besser kombiniert, die Objektlokalisierungsgenauigkeit verbessert und die Leistung in komplexen städtischen Szenen steigert. Unter Verwendung des DFC2023 Track 2-Datensatzes – welcher über 125.000 annotierte Gebäude aus 12 Städten umfasst – bewerten wir die Leistung von YOLOv11 anhand von Metriken wie Precision, Recall, F1-Score und mean Average Precision (mAP). Unsere Ergebnisse zeigen, dass YOLOv11 eine hohe Leistung bei der Instanzsegmentierung mit 60,4 % mAP@50 und 38,3 % mAP@50–95 erzielt und gleichzeitig eine robuste Klassifizierungsgenauigkeit über fünf vordefinierte Höhenklassen beibehält. Das Modell zeichnet sich besonders im Umgang mit Verdeckungen, komplexen Gebäudeformen und Klassenungleichgewichten aus, insbesondere bei seltenen Hochhausstrukturen. Eine vergleichende Analyse bestätigt, dass YOLOv11 frühere Multitask-Frameworks sowohl in der Detektionsgenauigkeit als auch in der Inferenzgeschwindigkeit übertrifft, was es für Echtzeit- und großflächige städtische Kartierungen geeignet macht. Diese Forschung unterstreicht das Potenzial von YOLOv11, die semantische Stadtrekonstruktion durch vereinfachte kategorielle Höhenmodellierung voranzutreiben, und bietet umsetzbare Erkenntnisse für zukünftige Entwicklungen in der Fernerkundung und geospatialen Intelligenz.
English
Accurate building instance segmentation and height classification are critical for urban planning, 3D city modeling, and infrastructure monitoring. This paper presents a detailed analysis of YOLOv11, the recent advancement in the YOLO series of deep learning models, focusing on its application to joint building extraction and discrete height classification from satellite imagery. YOLOv11 builds on the strengths of earlier YOLO models by introducing a more efficient architecture that better combines features at different scales, improves object localization accuracy, and enhances performance in complex urban scenes. Using the DFC2023 Track 2 dataset -- which includes over 125,000 annotated buildings across 12 cities -- we evaluate YOLOv11's performance using metrics such as precision, recall, F1 score, and mean average precision (mAP). Our findings demonstrate that YOLOv11 achieves strong instance segmentation performance with 60.4\% mAP@50 and 38.3\% mAP@50--95 while maintaining robust classification accuracy across five predefined height tiers. The model excels in handling occlusions, complex building shapes, and class imbalance, particularly for rare high-rise structures. Comparative analysis confirms that YOLOv11 outperforms earlier multitask frameworks in both detection accuracy and inference speed, making it well-suited for real-time, large-scale urban mapping. This research highlights YOLOv11's potential to advance semantic urban reconstruction through streamlined categorical height modeling, offering actionable insights for future developments in remote sensing and geospatial intelligence.
PDF31February 7, 2026