ChatPaper.aiChatPaper

Attention Multi-Tâche Équilibrée pour la Classification d'Images Satellitaires : Une Approche Systématique pour Atteindre 97,23 % de Précision sur EuroSAT Sans Pré-entraînement

Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training

October 17, 2025
papers.authors: Aditya Vir
cs.AI

papers.abstract

Ce travail présente une investigation systématique d'architectures personnalisées de réseaux de neurones convolutifs pour la classification de l'utilisation des terres à partir d'images satellitaires, atteignant une précision de test de 97,23 % sur le jeu de données EuroSAT sans recourir à des modèles pré-entraînés. À travers trois itérations architecturales progressives (baseline : 94,30 %, améliorée par CBAM : 95,98 %, et attention multi-tâches équilibrée : 97,23 %), nous identifions et corrigeons des modes de défaillance spécifiques dans la classification d'images satellitaires. Notre contribution principale est un nouveau mécanisme d'attention multi-tâches équilibré qui combine l'attention coordonnée pour l'extraction de caractéristiques spatiales avec des blocs Squeeze-Excitation pour l'extraction de caractéristiques spectrales, unifiés par un paramètre de fusion apprenable. Les résultats expérimentaux montrent que ce paramètre apprenable converge de manière autonome vers alpha ≈ 0,57, indiquant une importance quasi-égale des modalités spatiales et spectrales pour les images satellitaires. Nous utilisons une régularisation progressive par DropBlock (5-20 % selon la profondeur du réseau) et une pondération des pertes équilibrée par classe pour traiter le surapprentissage et le déséquilibre des motifs de confusion. L'architecture finale à 12 couches atteint un Kappa de Cohen de 0,9692 avec toutes les classes dépassant 94,46 % de précision, démontrant une calibration de confiance avec un écart de 24,25 % entre les prédictions correctes et incorrectes. Notre approche atteint une performance à 1,34 % près du ResNet-50 affiné (98,57 %) sans nécessiter de données externes, validant l'efficacité de la conception architecturale systématique pour des applications spécifiques à un domaine. Le code complet, les modèles entraînés et les scripts d'évaluation sont disponibles publiquement.
English
This work presents a systematic investigation of custom convolutional neural network architectures for satellite land use classification, achieving 97.23% test accuracy on the EuroSAT dataset without reliance on pre-trained models. Through three progressive architectural iterations (baseline: 94.30%, CBAM-enhanced: 95.98%, and balanced multi-task attention: 97.23%) we identify and address specific failure modes in satellite imagery classification. Our principal contribution is a novel balanced multi-task attention mechanism that combines Coordinate Attention for spatial feature extraction with Squeeze-Excitation blocks for spectral feature extraction, unified through a learnable fusion parameter. Experimental results demonstrate that this learnable parameter autonomously converges to alpha approximately 0.57, indicating near-equal importance of spatial and spectral modalities for satellite imagery. We employ progressive DropBlock regularization (5-20% by network depth) and class-balanced loss weighting to address overfitting and confusion pattern imbalance. The final 12-layer architecture achieves Cohen's Kappa of 0.9692 with all classes exceeding 94.46% accuracy, demonstrating confidence calibration with a 24.25% gap between correct and incorrect predictions. Our approach achieves performance within 1.34% of fine-tuned ResNet-50 (98.57%) while requiring no external data, validating the efficacy of systematic architectural design for domain-specific applications. Complete code, trained models, and evaluation scripts are publicly available.
PDF22October 21, 2025