UAGLNet: Rede de Fusão Global-Local com Agregação de Incerteza e Cooperação CNN-Transformer para Extração de Edificações
UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction
December 15, 2025
Autores: Siyuan Yao, Dongxiu Liu, Taotao Li, Shengjie Li, Wenqi Ren, Xiaochun Cao
cs.AI
Resumo
A extração de edifícios a partir de imagens de sensoriamento remoto é uma tarefa desafiadora devido às complexas variações estruturais das construções. Os métodos existentes empregam blocos de convolução ou autoatenção para capturar características multiescala em modelos de segmentação, enquanto a lacuna inerente das pirâmides de características e a integração insuficiente de características globais-locais resultam em extrações imprecisas e ambíguas. Para resolver este problema, apresentamos neste artigo uma Rede de Fusão Global-Local com Agregação de Incerteza (UAGLNet), capaz de explorar semânticas visuais globais-locais de alta qualidade sob a orientação da modelagem de incerteza. Especificamente, propomos um codificador cooperativo inovador, que adota camadas híbridas de CNN e transformer em diferentes estágios para capturar, respectivamente, as semânticas visuais locais e globais. Um bloco de interação cooperativa intermediária (CIB) é projetado para reduzir a lacuna entre as características locais e globais à medida que a rede se aprofunda. Posteriormente, propomos um módulo de Fusão Global-Local (GLF) para fundir de forma complementar as representações globais e locais. Além disso, para mitigar a ambiguidade de segmentação em regiões incertas, propomos um Decodificador com Agregação de Incerteza (UAD) para estimar explicitamente a incerteza pixel a pixel para melhorar a precisão da segmentação. Experimentos extensivos demonstram que nosso método alcança desempenho superior aos demais métodos state-of-the-art. Nosso código está disponível em https://github.com/Dstate/UAGLNet.
English
Building extraction from remote sensing images is a challenging task due to the complex structure variations of the buildings. Existing methods employ convolutional or self-attention blocks to capture the multi-scale features in the segmentation models, while the inherent gap of the feature pyramids and insufficient global-local feature integration leads to inaccurate, ambiguous extraction results. To address this issue, in this paper, we present an Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), which is capable to exploit high-quality global-local visual semantics under the guidance of uncertainty modeling. Specifically, we propose a novel cooperative encoder, which adopts hybrid CNN and transformer layers at different stages to capture the local and global visual semantics, respectively. An intermediate cooperative interaction block (CIB) is designed to narrow the gap between the local and global features when the network becomes deeper. Afterwards, we propose a Global-Local Fusion (GLF) module to complementarily fuse the global and local representations. Moreover, to mitigate the segmentation ambiguity in uncertain regions, we propose an Uncertainty-Aggregated Decoder (UAD) to explicitly estimate the pixel-wise uncertainty to enhance the segmentation accuracy. Extensive experiments demonstrate that our method achieves superior performance to other state-of-the-art methods. Our code is available at https://github.com/Dstate/UAGLNet