ChatPaper.aiChatPaper

Mask-to-Height: 衛星画像からの建物インスタンスセグメンテーションと高さ分類を統合するYOLOv11ベースのアーキテクチャ

Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery

October 31, 2025
著者: Mahmoud El Hussieni, Bahadır K. Güntürk, Hasan F. Ateş, Oğuz Hanoğlu
cs.AI

要旨

正確な建物インスタンスセグメンテーションと高さ分類は、都市計画、3D都市モデリング、インフラ監視にとって極めて重要である。本論文は、衛星画像からの建物抽出と離散的高さ分類の共同応用に焦点を当て、深層学習モデルYOLOシリーズの最新進展であるYOLOv11の詳細な分析を提示する。YOLOv11は、異なるスケールの特徴をより効率的に統合し、物体位置特定の精度を向上させ、複雑な都市景観における性能を強化する、より効率的なアーキテクチャを導入することで、従来のYOLOモデルの強みを発展させている。12都市にわたる12万5,000以上の注釈付き建物を含むDFC2023 Track 2データセットを用いて、適合率、再現率、F1スコア、平均適合率(mAP)などの指標によりYOLOv11の性能を評価する。結果は、YOLOv11が5段階の事前定義された高さカテゴリにわたって堅牢な分類精度を維持しつつ、mAP@50で60.4%、mAP@50--95で38.3%という強力なインスタンスセグメンテーション性能を達成することを示す。本モデルは、遮蔽、複雑な建物形状、特に希少な高層建築物に対するクラス不均衡の処理に優れている。比較分析により、YOLOv11が検出精度と推論速度の両方において従来のマルチタスクフレームワークを上回り、大規模な都市マッピングのリアルタイム処理に適していることが確認された。本研究は、効率化されたカテゴリ別高さモデリングを通じて意味論的都市再構築を推進するYOLOv11の可能性を明らかにし、リモートセンシング及び地理空間情報学の将来の発展に向けた実践的な知見を提供する。
English
Accurate building instance segmentation and height classification are critical for urban planning, 3D city modeling, and infrastructure monitoring. This paper presents a detailed analysis of YOLOv11, the recent advancement in the YOLO series of deep learning models, focusing on its application to joint building extraction and discrete height classification from satellite imagery. YOLOv11 builds on the strengths of earlier YOLO models by introducing a more efficient architecture that better combines features at different scales, improves object localization accuracy, and enhances performance in complex urban scenes. Using the DFC2023 Track 2 dataset -- which includes over 125,000 annotated buildings across 12 cities -- we evaluate YOLOv11's performance using metrics such as precision, recall, F1 score, and mean average precision (mAP). Our findings demonstrate that YOLOv11 achieves strong instance segmentation performance with 60.4\% mAP@50 and 38.3\% mAP@50--95 while maintaining robust classification accuracy across five predefined height tiers. The model excels in handling occlusions, complex building shapes, and class imbalance, particularly for rare high-rise structures. Comparative analysis confirms that YOLOv11 outperforms earlier multitask frameworks in both detection accuracy and inference speed, making it well-suited for real-time, large-scale urban mapping. This research highlights YOLOv11's potential to advance semantic urban reconstruction through streamlined categorical height modeling, offering actionable insights for future developments in remote sensing and geospatial intelligence.
PDF21December 2, 2025