Valutazione di Modelli di Deep Learning per la Classificazione di Immagini della Fauna Africana: da DenseNet ai Vision Transformer
Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers
July 28, 2025
Autori: Lukman Jibril Aliyu, Umar Sani Muhammad, Bilqisu Ismail, Nasiru Muhammad, Almustapha A Wakili, Seid Muhie Yimam, Shamsuddeen Hassan Muhammad, Mustapha Abdullahi
cs.AI
Abstract
Le popolazioni faunistiche in Africa affrontano gravi minacce, con un declino superiore al 65% del numero di vertebrati negli ultimi cinque decenni. In risposta, la classificazione di immagini mediante deep learning è emersa come uno strumento promettente per il monitoraggio e la conservazione della biodiversità. Questo articolo presenta uno studio comparativo di modelli di deep learning per la classificazione automatica di immagini della fauna africana, concentrandosi sul transfer learning con estrattori di caratteristiche congelati. Utilizzando un dataset pubblico di quattro specie: bufalo, elefante, rinoceronte e zebra; valutiamo le prestazioni di DenseNet-201, ResNet-152, EfficientNet-B4 e Vision Transformer ViT-H/14. DenseNet-201 ha ottenuto le migliori prestazioni tra le reti convoluzionali (67% di accuratezza), mentre ViT-H/14 ha raggiunto la più alta accuratezza complessiva (99%), ma con un costo computazionale significativamente più elevato, sollevando preoccupazioni riguardo alla distribuzione. I nostri esperimenti evidenziano i compromessi tra accuratezza, requisiti di risorse e fattibilità di distribuzione. La CNN con le migliori prestazioni (DenseNet-201) è stata integrata in uno spazio Hugging Face Gradio per l'uso in tempo reale sul campo, dimostrando la fattibilità di distribuire modelli leggeri in contesti di conservazione. Questo lavoro contribuisce alla ricerca sull'IA radicata in Africa offrendo approfondimenti pratici sulla selezione dei modelli, la preparazione dei dataset e la distribuzione responsabile di strumenti di deep learning per la conservazione della fauna selvatica.
English
Wildlife populations in Africa face severe threats, with vertebrate numbers
declining by over 65% in the past five decades. In response, image
classification using deep learning has emerged as a promising tool for
biodiversity monitoring and conservation. This paper presents a comparative
study of deep learning models for automatically classifying African wildlife
images, focusing on transfer learning with frozen feature extractors. Using a
public dataset of four species: buffalo, elephant, rhinoceros, and zebra; we
evaluate the performance of DenseNet-201, ResNet-152, EfficientNet-B4, and
Vision Transformer ViT-H/14. DenseNet-201 achieved the best performance among
convolutional networks (67% accuracy), while ViT-H/14 achieved the highest
overall accuracy (99%), but with significantly higher computational cost,
raising deployment concerns. Our experiments highlight the trade-offs between
accuracy, resource requirements, and deployability. The best-performing CNN
(DenseNet-201) was integrated into a Hugging Face Gradio Space for real-time
field use, demonstrating the feasibility of deploying lightweight models in
conservation settings. This work contributes to African-grounded AI research by
offering practical insights into model selection, dataset preparation, and
responsible deployment of deep learning tools for wildlife conservation.