ChatPaper.aiChatPaper

Маска-к-высоте: архитектура на основе YOLOv11 для совместной сегментации экземпляров зданий и классификации высоты по спутниковым снимкам

Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery

October 31, 2025
Авторы: Mahmoud El Hussieni, Bahadır K. Güntürk, Hasan F. Ateş, Oğuz Hanoğlu
cs.AI

Аннотация

Точное построчное сегментирование зданий и классификация их высоты имеют критически важное значение для градостроительного планирования, трехмерного моделирования городов и мониторинга инфраструктуры. В данной статье представлен детальный анализ YOLOv11 — последней разработки в серии моделей глубокого обучения YOLO, сфокусированный на её применении для совместного извлечения зданий и дискретной классификации высоты по спутниковым снимкам. YOLOv11 развивает преимущества более ранних моделей YOLO, вводя более эффективную архитектуру, которая лучше комбинирует признаки разных масштабов, повышает точность локализации объектов и улучшает работу в сложных городских сценах. Используя набор данных DFC2023 Track 2, включающий более 125 000 размеченных зданий из 12 городов, мы оценили производительность YOLOv11 с помощью таких метрик, как точность, полнота, F1-мера и средняя точность (mAP). Наши результаты показывают, что YOLOv11 демонстрирует высокую производительность в построчной сегментации с показателями 60,4% mAP@50 и 38,3% mAP@50–95, сохраняя при этом надежную точность классификации по пяти предопределенным категориям высоты. Модель эффективно справляется с окклюзиями, сложными формами зданий и дисбалансом классов, особенно для редко встречающихся высотных сооружений. Сравнительный анализ подтверждает, что YOLOv11 превосходит более ранние многозадачные框架 как по точности детектирования, так и по скорости вывода, что делает её хорошо подходящей для задач крупномасштабного городского картографирования в реальном времени. Данное исследование подчеркивает потенциал YOLOv11 для развития семантической реконструкции городской среды за счет упрощенного категориального моделирования высоты, предлагая практические insights для будущих разработок в области дистанционного зондирования и геопространственной аналитики.
English
Accurate building instance segmentation and height classification are critical for urban planning, 3D city modeling, and infrastructure monitoring. This paper presents a detailed analysis of YOLOv11, the recent advancement in the YOLO series of deep learning models, focusing on its application to joint building extraction and discrete height classification from satellite imagery. YOLOv11 builds on the strengths of earlier YOLO models by introducing a more efficient architecture that better combines features at different scales, improves object localization accuracy, and enhances performance in complex urban scenes. Using the DFC2023 Track 2 dataset -- which includes over 125,000 annotated buildings across 12 cities -- we evaluate YOLOv11's performance using metrics such as precision, recall, F1 score, and mean average precision (mAP). Our findings demonstrate that YOLOv11 achieves strong instance segmentation performance with 60.4\% mAP@50 and 38.3\% mAP@50--95 while maintaining robust classification accuracy across five predefined height tiers. The model excels in handling occlusions, complex building shapes, and class imbalance, particularly for rare high-rise structures. Comparative analysis confirms that YOLOv11 outperforms earlier multitask frameworks in both detection accuracy and inference speed, making it well-suited for real-time, large-scale urban mapping. This research highlights YOLOv11's potential to advance semantic urban reconstruction through streamlined categorical height modeling, offering actionable insights for future developments in remote sensing and geospatial intelligence.
PDF21December 2, 2025