마스크-투-하이트: 위성 영상에서 건물 인스턴스 분할 및 높이 분류를 위한 YOLOv11 기반 아키텍처
Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery
October 31, 2025
저자: Mahmoud El Hussieni, Bahadır K. Güntürk, Hasan F. Ateş, Oğuz Hanoğlu
cs.AI
초록
정확한 건물 인스턴스 분할 및 높이 분류는 도시 계획, 3차원 도시 모델링 및 인프라 모니터링에 매우 중요합니다. 본 논문은 위성 영상으로부터 건물 추출과 이산적 높이 분류를 결합한 응용에 초점을 맞춰, 딥러닝 모델 YOLO 시리즈의 최신 발전인 YOLOv11을 상세히 분석합니다. YOLOv11은 서로 다른 규모의 특징을 더 효율적으로 결합하고, 객체 위치 정확도를 개선하며, 복잡한 도시 환경에서의 성능을 향상시키는 더 효율적인 구조를 도입하여 기존 YOLO 모델의 장점을 발전시켰습니다. 12개 도시에 걸쳐 125,000개 이상의 주석이 달린 건물을 포함하는 DFC2023 Track 2 데이터셋을 사용하여 정밀도, 재현율, F1 점수, 평균 평균 정밀도(mAP) 등의 지표로 YOLOv11의 성능을 평가했습니다. 연구 결과에 따르면 YOLOv11은 5개의 사전 정의된 높이 계층 전반에서 견고한 분류 정확도를 유지하면서 60.4%의 mAP@50과 38.3%의 mAP@50–95로 강력한 인스턴스 분할 성능을 달성했습니다. 특히 드문 고층 구조물에 대해 가림 현상, 복잡한 건물 형태, 클래스 불균형을 효과적으로 처리하는 것으로 나타났습니다. 비교 분석 결과, YOLOv11은 탐지 정확도와 추론 속도 모두에서 기존 다중 작업 프레임워크를 능가하며, 이는 실시간 대규모 도시 매핑에 매우 적합함을 확인했습니다. 본 연구는 YOLOv11이 간소화된 범주형 높이 모델링을 통해 의미론적 도시 재구성을 발전시킬 잠재력을 강조하며, 향후 원격 탐사 및 지리공간 정보 분야 발전을 위한 실행 가능한 통찰을 제공합니다.
English
Accurate building instance segmentation and height classification are
critical for urban planning, 3D city modeling, and infrastructure monitoring.
This paper presents a detailed analysis of YOLOv11, the recent advancement in
the YOLO series of deep learning models, focusing on its application to joint
building extraction and discrete height classification from satellite imagery.
YOLOv11 builds on the strengths of earlier YOLO models by introducing a more
efficient architecture that better combines features at different scales,
improves object localization accuracy, and enhances performance in complex
urban scenes. Using the DFC2023 Track 2 dataset -- which includes over 125,000
annotated buildings across 12 cities -- we evaluate YOLOv11's performance using
metrics such as precision, recall, F1 score, and mean average precision (mAP).
Our findings demonstrate that YOLOv11 achieves strong instance segmentation
performance with 60.4\% mAP@50 and 38.3\% mAP@50--95 while maintaining robust
classification accuracy across five predefined height tiers. The model excels
in handling occlusions, complex building shapes, and class imbalance,
particularly for rare high-rise structures. Comparative analysis confirms that
YOLOv11 outperforms earlier multitask frameworks in both detection accuracy and
inference speed, making it well-suited for real-time, large-scale urban
mapping. This research highlights YOLOv11's potential to advance semantic urban
reconstruction through streamlined categorical height modeling, offering
actionable insights for future developments in remote sensing and geospatial
intelligence.