Оценка моделей глубокого обучения для классификации изображений африканской дикой природы: от DenseNet до Vision Transformers
Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers
July 28, 2025
Авторы: Lukman Jibril Aliyu, Umar Sani Muhammad, Bilqisu Ismail, Nasiru Muhammad, Almustapha A Wakili, Seid Muhie Yimam, Shamsuddeen Hassan Muhammad, Mustapha Abdullahi
cs.AI
Аннотация
Популяции дикой природы в Африке сталкиваются с серьезными угрозами, при этом численность позвоночных сократилась более чем на 65% за последние пять десятилетий. В ответ на это классификация изображений с использованием глубокого обучения стала перспективным инструментом для мониторинга биоразнообразия и охраны природы. В данной статье представлено сравнительное исследование моделей глубокого обучения для автоматической классификации изображений африканской дикой природы, с акцентом на трансферное обучение с замороженными экстракторами признаков. Используя публичный набор данных, включающий четыре вида: буйвола, слона, носорога и зебру, мы оцениваем производительность моделей DenseNet-201, ResNet-152, EfficientNet-B4 и Vision Transformer ViT-H/14. DenseNet-201 показал наилучшую производительность среди сверточных сетей (точность 67%), в то время как ViT-H/14 достиг наивысшей общей точности (99%), но с существенно более высокими вычислительными затратами, что вызывает опасения относительно их внедрения. Наши эксперименты подчеркивают компромиссы между точностью, требованиями к ресурсам и возможностью развертывания. Лучшая сверточная нейронная сеть (DenseNet-201) была интегрирована в Hugging Face Gradio Space для использования в реальном времени в полевых условиях, демонстрируя возможность внедрения легковесных моделей в условиях охраны природы. Данная работа вносит вклад в исследования ИИ, ориентированные на Африку, предлагая практические рекомендации по выбору моделей, подготовке наборов данных и ответственному внедрению инструментов глубокого обучения для охраны дикой природы.
English
Wildlife populations in Africa face severe threats, with vertebrate numbers
declining by over 65% in the past five decades. In response, image
classification using deep learning has emerged as a promising tool for
biodiversity monitoring and conservation. This paper presents a comparative
study of deep learning models for automatically classifying African wildlife
images, focusing on transfer learning with frozen feature extractors. Using a
public dataset of four species: buffalo, elephant, rhinoceros, and zebra; we
evaluate the performance of DenseNet-201, ResNet-152, EfficientNet-B4, and
Vision Transformer ViT-H/14. DenseNet-201 achieved the best performance among
convolutional networks (67% accuracy), while ViT-H/14 achieved the highest
overall accuracy (99%), but with significantly higher computational cost,
raising deployment concerns. Our experiments highlight the trade-offs between
accuracy, resource requirements, and deployability. The best-performing CNN
(DenseNet-201) was integrated into a Hugging Face Gradio Space for real-time
field use, demonstrating the feasibility of deploying lightweight models in
conservation settings. This work contributes to African-grounded AI research by
offering practical insights into model selection, dataset preparation, and
responsible deployment of deep learning tools for wildlife conservation.