ChatPaper.aiChatPaper

UAGLNet: Rete di Fusione Globale-Locale con Aggregazione dell'Incertezza e Cooperazione CNN-Transformer per l'Estrazione di Edifici

UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction

December 15, 2025
Autori: Siyuan Yao, Dongxiu Liu, Taotao Li, Shengjie Li, Wenqi Ren, Xiaochun Cao
cs.AI

Abstract

L'estrazione di edifici da immagini di telerilevamento è un compito impegnativo a causa delle complesse variazioni strutturali degli edifici stessi. I metodi esistenti utilizzano blocchi convoluzionali o di self-attention per catturare le caratteristiche multi-scala nei modelli di segmentazione, mentre l'inherente divario tra le piramidi di caratteristiche e un'integrazione insufficiente tra caratteristiche globali e locali porta a risultati di estrazione imprecisi e ambigui. Per affrontare questo problema, in questo articolo presentiamo una Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), in grado di sfruttare semantiche visive globali-locali di alta qualità sotto la guida della modellazione dell'incertezza. Nello specifico, proponiamo un nuovo codificatore cooperativo, che adotta strati ibridi CNN e transformer in stadi diversi per catturare rispettivamente le semantiche visive locali e globali. Un blocco di interazione cooperativa intermedio (CIB) è progettato per ridurre il divario tra le caratteristiche locali e globali quando la rete diventa più profonda. Successivamente, proponiamo un modulo di Fusione Globale-Locale (GLF) per fondere in modo complementare le rappresentazioni globali e locali. Inoltre, per mitigare l'ambiguità di segmentazione nelle regioni incerte, proponiamo un Decodificatore ad Incertezza Aggregata (UAD) per stimare esplicitamente l'incertezza a livello di pixel e migliorare così l'accuratezza della segmentazione. Esperimenti estensivi dimostrano che il nostro metodo raggiunge prestazioni superiori rispetto ad altri metodi all'avanguardia. Il nostro codice è disponibile all'indirizzo https://github.com/Dstate/UAGLNet.
English
Building extraction from remote sensing images is a challenging task due to the complex structure variations of the buildings. Existing methods employ convolutional or self-attention blocks to capture the multi-scale features in the segmentation models, while the inherent gap of the feature pyramids and insufficient global-local feature integration leads to inaccurate, ambiguous extraction results. To address this issue, in this paper, we present an Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), which is capable to exploit high-quality global-local visual semantics under the guidance of uncertainty modeling. Specifically, we propose a novel cooperative encoder, which adopts hybrid CNN and transformer layers at different stages to capture the local and global visual semantics, respectively. An intermediate cooperative interaction block (CIB) is designed to narrow the gap between the local and global features when the network becomes deeper. Afterwards, we propose a Global-Local Fusion (GLF) module to complementarily fuse the global and local representations. Moreover, to mitigate the segmentation ambiguity in uncertain regions, we propose an Uncertainty-Aggregated Decoder (UAD) to explicitly estimate the pixel-wise uncertainty to enhance the segmentation accuracy. Extensive experiments demonstrate that our method achieves superior performance to other state-of-the-art methods. Our code is available at https://github.com/Dstate/UAGLNet
PDF11December 18, 2025