Évaluation des modèles d'apprentissage profond pour la classification d'images de la faune africaine : de DenseNet aux Vision Transformers

papers.abstract

Les populations fauniques en Afrique sont confrontées à des menaces graves, avec une diminution de plus de 65 % des nombres de vertébrés au cours des cinq dernières décennies. En réponse, la classification d'images par apprentissage profond est apparue comme un outil prometteur pour la surveillance et la conservation de la biodiversité. Cet article présente une étude comparative des modèles d'apprentissage profond pour la classification automatique d'images de la faune africaine, en mettant l'accent sur l'apprentissage par transfert avec des extracteurs de caractéristiques figés. En utilisant un jeu de données public de quatre espèces : buffle, éléphant, rhinocéros et zèbre, nous évaluons les performances de DenseNet-201, ResNet-152, EfficientNet-B4 et Vision Transformer ViT-H/14. DenseNet-201 a obtenu les meilleures performances parmi les réseaux convolutifs (67 % de précision), tandis que ViT-H/14 a atteint la précision globale la plus élevée (99 %), mais avec un coût de calcul significativement plus élevé, soulevant des préoccupations quant à son déploiement. Nos expériences mettent en évidence les compromis entre la précision, les exigences en ressources et la facilité de déploiement. Le meilleur réseau de neurones convolutifs (DenseNet-201) a été intégré dans un espace Hugging Face Gradio pour une utilisation en temps réel sur le terrain, démontrant la faisabilité du déploiement de modèles légers dans des contextes de conservation. Ce travail contribue à la recherche en intelligence artificielle ancrée en Afrique en offrant des insights pratiques sur la sélection des modèles, la préparation des jeux de données et le déploiement responsable des outils d'apprentissage profond pour la conservation de la faune.

English

Wildlife populations in Africa face severe threats, with vertebrate numbers declining by over 65% in the past five decades. In response, image classification using deep learning has emerged as a promising tool for biodiversity monitoring and conservation. This paper presents a comparative study of deep learning models for automatically classifying African wildlife images, focusing on transfer learning with frozen feature extractors. Using a public dataset of four species: buffalo, elephant, rhinoceros, and zebra; we evaluate the performance of DenseNet-201, ResNet-152, EfficientNet-B4, and Vision Transformer ViT-H/14. DenseNet-201 achieved the best performance among convolutional networks (67% accuracy), while ViT-H/14 achieved the highest overall accuracy (99%), but with significantly higher computational cost, raising deployment concerns. Our experiments highlight the trade-offs between accuracy, resource requirements, and deployability. The best-performing CNN (DenseNet-201) was integrated into a Hugging Face Gradio Space for real-time field use, demonstrating the feasibility of deploying lightweight models in conservation settings. This work contributes to African-grounded AI research by offering practical insights into model selection, dataset preparation, and responsible deployment of deep learning tools for wildlife conservation.

Évaluation des modèles d'apprentissage profond pour la classification d'images de la faune africaine : de DenseNet aux Vision Transformers

Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers

papers.abstract

Support