ChatPaper.aiChatPaper

UAGLNet: Red de Fusión Global-Local con Agregación de Incertidumbre y Cooperación CNN-Transformer para la Extracción de Edificios

UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction

December 15, 2025
Autores: Siyuan Yao, Dongxiu Liu, Taotao Li, Shengjie Li, Wenqi Ren, Xiaochun Cao
cs.AI

Resumen

La extracción de edificios a partir de imágenes de teledetección es una tarea compleja debido a las variaciones estructurales de los edificios. Los métodos existentes emplean bloques de convolución o autoatención para capturar características multiescala en los modelos de segmentación; sin embargo, la brecha inherente de las pirámides de características y la integración insuficiente de características globales-locales conducen a resultados de extracción imprecisos y ambiguos. Para abordar este problema, en este artículo presentamos una Red de Fusión Global-Local con Agregación de Incertidumbre (UAGLNet), capaz de explotar semántica visual global-local de alta calidad bajo la guía de modelado de incertidumbre. Específicamente, proponemos un codificador cooperativo novedoso, que adopta capas híbridas de CNN y transformador en diferentes etapas para capturar la semántica visual local y global, respectivamente. Se diseña un bloque de interacción cooperativa intermedia (CIB) para reducir la brecha entre las características locales y globales a medida que la red se profundiza. Posteriormente, proponemos un módulo de Fusión Global-Local (GLF) para fusionar complementariamente las representaciones globales y locales. Además, para mitigar la ambigüedad de segmentación en regiones inciertas, proponemos un Decodificador con Agregación de Incertidumbre (UAD) para estimar explícitamente la incertidumbre a nivel de píxel y así mejorar la precisión de la segmentación. Experimentos exhaustivos demuestran que nuestro método logra un rendimiento superior al de otros métodos de vanguardia. Nuestro código está disponible en https://github.com/Dstate/UAGLNet.
English
Building extraction from remote sensing images is a challenging task due to the complex structure variations of the buildings. Existing methods employ convolutional or self-attention blocks to capture the multi-scale features in the segmentation models, while the inherent gap of the feature pyramids and insufficient global-local feature integration leads to inaccurate, ambiguous extraction results. To address this issue, in this paper, we present an Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), which is capable to exploit high-quality global-local visual semantics under the guidance of uncertainty modeling. Specifically, we propose a novel cooperative encoder, which adopts hybrid CNN and transformer layers at different stages to capture the local and global visual semantics, respectively. An intermediate cooperative interaction block (CIB) is designed to narrow the gap between the local and global features when the network becomes deeper. Afterwards, we propose a Global-Local Fusion (GLF) module to complementarily fuse the global and local representations. Moreover, to mitigate the segmentation ambiguity in uncertain regions, we propose an Uncertainty-Aggregated Decoder (UAD) to explicitly estimate the pixel-wise uncertainty to enhance the segmentation accuracy. Extensive experiments demonstrate that our method achieves superior performance to other state-of-the-art methods. Our code is available at https://github.com/Dstate/UAGLNet
PDF11December 18, 2025