ChatPaper.aiChatPaper

Attenzione Multi-Task Bilanciata per la Classificazione di Immagini Satellitari: Un Approccio Sistematico per Raggiungere il 97,23% di Accuratezza su EuroSAT Senza Pre-Training

Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training

October 17, 2025
Autori: Aditya Vir
cs.AI

Abstract

Questo lavoro presenta un'indagine sistematica di architetture personalizzate di reti neurali convoluzionali per la classificazione dell'uso del suolo da immagini satellitari, raggiungendo un'accuratezza del 97,23% sul dataset EuroSAT senza fare affidamento su modelli pre-addestrati. Attraverso tre iterazioni architetturali progressive (baseline: 94,30%, CBAM-enhanced: 95,98%, e attenzione multi-task bilanciata: 97,23%) identifichiamo e affrontiamo specifici modi di fallimento nella classificazione di immagini satellitari. Il nostro contributo principale è un nuovo meccanismo di attenzione multi-task bilanciato che combina l'attenzione coordinata per l'estrazione di caratteristiche spaziali con blocchi Squeeze-Excitation per l'estrazione di caratteristiche spettrali, unificati attraverso un parametro di fusione apprendibile. I risultati sperimentali dimostrano che questo parametro apprendibile converge autonomamente a un valore di alpha approssimativamente pari a 0,57, indicando un'importanza quasi uguale delle modalità spaziali e spettrali per le immagini satellitari. Utilizziamo una regolarizzazione progressiva con DropBlock (5-20% in base alla profondità della rete) e una ponderazione della perdita bilanciata per classe per affrontare l'overfitting e lo squilibrio nei pattern di confusione. L'architettura finale a 12 strati raggiunge un Kappa di Cohen pari a 0,9692, con tutte le classi che superano il 94,46% di accuratezza, dimostrando una calibrazione della confidenza con un divario del 24,25% tra previsioni corrette e errate. Il nostro approccio raggiunge prestazioni entro l'1,34% rispetto a ResNet-50 fine-tuned (98,57%) senza richiedere dati esterni, validando l'efficacia della progettazione architetturale sistematica per applicazioni specifiche del dominio. Codice completo, modelli addestrati e script di valutazione sono pubblicamente disponibili.
English
This work presents a systematic investigation of custom convolutional neural network architectures for satellite land use classification, achieving 97.23% test accuracy on the EuroSAT dataset without reliance on pre-trained models. Through three progressive architectural iterations (baseline: 94.30%, CBAM-enhanced: 95.98%, and balanced multi-task attention: 97.23%) we identify and address specific failure modes in satellite imagery classification. Our principal contribution is a novel balanced multi-task attention mechanism that combines Coordinate Attention for spatial feature extraction with Squeeze-Excitation blocks for spectral feature extraction, unified through a learnable fusion parameter. Experimental results demonstrate that this learnable parameter autonomously converges to alpha approximately 0.57, indicating near-equal importance of spatial and spectral modalities for satellite imagery. We employ progressive DropBlock regularization (5-20% by network depth) and class-balanced loss weighting to address overfitting and confusion pattern imbalance. The final 12-layer architecture achieves Cohen's Kappa of 0.9692 with all classes exceeding 94.46% accuracy, demonstrating confidence calibration with a 24.25% gap between correct and incorrect predictions. Our approach achieves performance within 1.34% of fine-tuned ResNet-50 (98.57%) while requiring no external data, validating the efficacy of systematic architectural design for domain-specific applications. Complete code, trained models, and evaluation scripts are publicly available.
PDF22October 21, 2025