ChatPaper.aiChatPaper

UAGLNet: Сеть глобально-локального слияния с агрегацией неопределенности и кооперативным CNN-трансформером для извлечения зданий

UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction

December 15, 2025
Авторы: Siyuan Yao, Dongxiu Liu, Taotao Li, Shengjie Li, Wenqi Ren, Xiaochun Cao
cs.AI

Аннотация

Автоматизированное извлечение зданий из данных дистанционного зондирования представляет собой сложную задачу ввиду значительного структурного разнообразия объектов. Существующие методы используют сверточные блоки или механизмы самовнимания для захвата многомасштабных признаков в моделях сегментации, однако присущий пирамидам признаков разрыв и недостаточная интеграция глобально-локальных особенностей приводят к неточным и неоднозначным результатам. Для решения данной проблемы в статье представлена сеть Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), способная выявлять высококачественные глобально-локальные визуальные семантики под управлением моделирования неопределенности. В частности, предложен кооперативный энкодер, использующий гибридные слои CNN и трансформера на разных стадиях для захвата локальных и глобальных визуальных семантик соответственно. Разработан промежуточный блок кооперативного взаимодействия (CIB) для сокращения разрыва между локальными и глобальными признаками при увеличении глубины сети. Далее предложен модуль глобально-локального слияния (GLF) для комплементарного объединения глобальных и локальных представлений. Кроме того, для снижения неоднозначности сегментации в областях с высокой неопределенностью разработан декодер с агрегацией неопределенности (UAD), явно оценивающий поточечную неопределенность для повышения точности сегментации. Эксперименты подтверждают превосходство предложенного метода над современными аналогами. Исходный код доступен по адресу https://github.com/Dstate/UAGLNet
English
Building extraction from remote sensing images is a challenging task due to the complex structure variations of the buildings. Existing methods employ convolutional or self-attention blocks to capture the multi-scale features in the segmentation models, while the inherent gap of the feature pyramids and insufficient global-local feature integration leads to inaccurate, ambiguous extraction results. To address this issue, in this paper, we present an Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), which is capable to exploit high-quality global-local visual semantics under the guidance of uncertainty modeling. Specifically, we propose a novel cooperative encoder, which adopts hybrid CNN and transformer layers at different stages to capture the local and global visual semantics, respectively. An intermediate cooperative interaction block (CIB) is designed to narrow the gap between the local and global features when the network becomes deeper. Afterwards, we propose a Global-Local Fusion (GLF) module to complementarily fuse the global and local representations. Moreover, to mitigate the segmentation ambiguity in uncertain regions, we propose an Uncertainty-Aggregated Decoder (UAD) to explicitly estimate the pixel-wise uncertainty to enhance the segmentation accuracy. Extensive experiments demonstrate that our method achieves superior performance to other state-of-the-art methods. Our code is available at https://github.com/Dstate/UAGLNet
PDF11December 18, 2025