Сбалансированное многозадачное внимание для классификации спутниковых изображений: систематический подход к достижению точности 97,23% на EuroSAT без предварительного обучения
Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training
October 17, 2025
Авторы: Aditya Vir
cs.AI
Аннотация
В данной работе представлено систематическое исследование специализированных архитектур сверточных нейронных сетей для классификации землепользования по спутниковым снимкам, достигающее точности 97,23% на тестовом наборе данных EuroSAT без использования предварительно обученных моделей. В ходе трех последовательных итераций архитектуры (базовая: 94,30%, с улучшением CBAM: 95,98% и сбалансированная многозадачная модель внимания: 97,23%) мы выявили и устранили характерные ошибки в классификации спутниковых изображений. Основной вклад работы заключается в предложении нового механизма сбалансированного многозадачного внимания, который объединяет Coordinate Attention для извлечения пространственных признаков и блоки Squeeze-Excitation для извлечения спектральных признаков, связанных через обучаемый параметр слияния. Экспериментальные результаты показывают, что этот обучаемый параметр автономно сходится к значению альфа ≈ 0,57, что указывает на почти равную важность пространственных и спектральных модальностей для спутниковых изображений. Мы применяем прогрессивную регуляризацию DropBlock (5-20% в зависимости от глубины сети) и взвешивание потерь с учетом баланса классов для борьбы с переобучением и дисбалансом в паттернах ошибок. Финальная 12-слойная архитектура достигает коэффициента Каппа Коэна 0,9692, при этом точность для всех классов превышает 94,46%, демонстрируя калибровку уверенности с разрывом в 24,25% между правильными и ошибочными предсказаниями. Наш подход показывает результат, отличающийся всего на 1,34% от точности дообученной модели ResNet-50 (98,57%), при этом не требуя внешних данных, что подтверждает эффективность систематического проектирования архитектур для задач в конкретных предметных областях. Полный код, обученные модели и скрипты для оценки доступны в открытом доступе.
English
This work presents a systematic investigation of custom convolutional neural
network architectures for satellite land use classification, achieving 97.23%
test accuracy on the EuroSAT dataset without reliance on pre-trained models.
Through three progressive architectural iterations (baseline: 94.30%,
CBAM-enhanced: 95.98%, and balanced multi-task attention: 97.23%) we identify
and address specific failure modes in satellite imagery classification. Our
principal contribution is a novel balanced multi-task attention mechanism that
combines Coordinate Attention for spatial feature extraction with
Squeeze-Excitation blocks for spectral feature extraction, unified through a
learnable fusion parameter. Experimental results demonstrate that this
learnable parameter autonomously converges to alpha approximately 0.57,
indicating near-equal importance of spatial and spectral modalities for
satellite imagery. We employ progressive DropBlock regularization (5-20% by
network depth) and class-balanced loss weighting to address overfitting and
confusion pattern imbalance. The final 12-layer architecture achieves Cohen's
Kappa of 0.9692 with all classes exceeding 94.46% accuracy, demonstrating
confidence calibration with a 24.25% gap between correct and incorrect
predictions. Our approach achieves performance within 1.34% of fine-tuned
ResNet-50 (98.57%) while requiring no external data, validating the efficacy of
systematic architectural design for domain-specific applications. Complete
code, trained models, and evaluation scripts are publicly available.