Évaluation des modèles d'apprentissage profond pour la classification d'images de la faune africaine : de DenseNet aux Vision Transformers
Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers
July 28, 2025
papers.authors: Lukman Jibril Aliyu, Umar Sani Muhammad, Bilqisu Ismail, Nasiru Muhammad, Almustapha A Wakili, Seid Muhie Yimam, Shamsuddeen Hassan Muhammad, Mustapha Abdullahi
cs.AI
papers.abstract
Les populations fauniques en Afrique sont confrontées à des menaces graves, avec une diminution de plus de 65 % des nombres de vertébrés au cours des cinq dernières décennies. En réponse, la classification d'images par apprentissage profond est apparue comme un outil prometteur pour la surveillance et la conservation de la biodiversité. Cet article présente une étude comparative des modèles d'apprentissage profond pour la classification automatique d'images de la faune africaine, en mettant l'accent sur l'apprentissage par transfert avec des extracteurs de caractéristiques figés. En utilisant un jeu de données public de quatre espèces : buffle, éléphant, rhinocéros et zèbre, nous évaluons les performances de DenseNet-201, ResNet-152, EfficientNet-B4 et Vision Transformer ViT-H/14. DenseNet-201 a obtenu les meilleures performances parmi les réseaux convolutifs (67 % de précision), tandis que ViT-H/14 a atteint la précision globale la plus élevée (99 %), mais avec un coût de calcul significativement plus élevé, soulevant des préoccupations quant à son déploiement. Nos expériences mettent en évidence les compromis entre la précision, les exigences en ressources et la facilité de déploiement. Le meilleur réseau de neurones convolutifs (DenseNet-201) a été intégré dans un espace Hugging Face Gradio pour une utilisation en temps réel sur le terrain, démontrant la faisabilité du déploiement de modèles légers dans des contextes de conservation. Ce travail contribue à la recherche en intelligence artificielle ancrée en Afrique en offrant des insights pratiques sur la sélection des modèles, la préparation des jeux de données et le déploiement responsable des outils d'apprentissage profond pour la conservation de la faune.
English
Wildlife populations in Africa face severe threats, with vertebrate numbers
declining by over 65% in the past five decades. In response, image
classification using deep learning has emerged as a promising tool for
biodiversity monitoring and conservation. This paper presents a comparative
study of deep learning models for automatically classifying African wildlife
images, focusing on transfer learning with frozen feature extractors. Using a
public dataset of four species: buffalo, elephant, rhinoceros, and zebra; we
evaluate the performance of DenseNet-201, ResNet-152, EfficientNet-B4, and
Vision Transformer ViT-H/14. DenseNet-201 achieved the best performance among
convolutional networks (67% accuracy), while ViT-H/14 achieved the highest
overall accuracy (99%), but with significantly higher computational cost,
raising deployment concerns. Our experiments highlight the trade-offs between
accuracy, resource requirements, and deployability. The best-performing CNN
(DenseNet-201) was integrated into a Hugging Face Gradio Space for real-time
field use, demonstrating the feasibility of deploying lightweight models in
conservation settings. This work contributes to African-grounded AI research by
offering practical insights into model selection, dataset preparation, and
responsible deployment of deep learning tools for wildlife conservation.