ChatPaper.aiChatPaper

Atenção Balanceada em Multi-Tarefas para Classificação de Imagens de Satélite: Uma Abordagem Sistemática para Alcançar 97,23% de Acurácia no EuroSAT Sem Pré-Treinamento

Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training

October 17, 2025
Autores: Aditya Vir
cs.AI

Resumo

Este trabalho apresenta uma investigação sistemática de arquiteturas personalizadas de redes neurais convolucionais para classificação de uso do solo em imagens de satélite, alcançando 97,23% de acurácia no conjunto de dados EuroSAT sem depender de modelos pré-treinados. Através de três iterações arquiteturais progressivas (baseline: 94,30%, aprimorada com CBAM: 95,98%, e atenção multitarefa balanceada: 97,23%), identificamos e abordamos modos de falha específicos na classificação de imagens de satélite. Nossa principal contribuição é um novo mecanismo de atenção multitarefa balanceada que combina Atenção por Coordenadas para extração de características espaciais com blocos Squeeze-Excitation para extração de características espectrais, unificados por um parâmetro de fusão aprendível. Resultados experimentais demonstram que este parâmetro aprendível converge autonomamente para alfa aproximadamente 0,57, indicando importância quase igual das modalidades espacial e espectral para imagens de satélite. Empregamos regularização progressiva com DropBlock (5-20% conforme a profundidade da rede) e ponderação de perda balanceada por classe para abordar overfitting e desequilíbrio de padrões de confusão. A arquitetura final de 12 camadas alcança Kappa de Cohen de 0,9692, com todas as classes excedendo 94,46% de acurácia, demonstrando calibração de confiança com uma diferença de 24,25% entre previsões corretas e incorretas. Nossa abordagem alcança desempenho dentro de 1,34% do ResNet-50 ajustado (98,57%) sem necessitar de dados externos, validando a eficácia do design arquitetônico sistemático para aplicações específicas de domínio. Código completo, modelos treinados e scripts de avaliação estão publicamente disponíveis.
English
This work presents a systematic investigation of custom convolutional neural network architectures for satellite land use classification, achieving 97.23% test accuracy on the EuroSAT dataset without reliance on pre-trained models. Through three progressive architectural iterations (baseline: 94.30%, CBAM-enhanced: 95.98%, and balanced multi-task attention: 97.23%) we identify and address specific failure modes in satellite imagery classification. Our principal contribution is a novel balanced multi-task attention mechanism that combines Coordinate Attention for spatial feature extraction with Squeeze-Excitation blocks for spectral feature extraction, unified through a learnable fusion parameter. Experimental results demonstrate that this learnable parameter autonomously converges to alpha approximately 0.57, indicating near-equal importance of spatial and spectral modalities for satellite imagery. We employ progressive DropBlock regularization (5-20% by network depth) and class-balanced loss weighting to address overfitting and confusion pattern imbalance. The final 12-layer architecture achieves Cohen's Kappa of 0.9692 with all classes exceeding 94.46% accuracy, demonstrating confidence calibration with a 24.25% gap between correct and incorrect predictions. Our approach achieves performance within 1.34% of fine-tuned ResNet-50 (98.57%) while requiring no external data, validating the efficacy of systematic architectural design for domain-specific applications. Complete code, trained models, and evaluation scripts are publicly available.
PDF22October 21, 2025