Evaluación de Modelos de Aprendizaje Profundo para la Clasificación de Imágenes de Vida Silvestre Africana: Desde DenseNet hasta Transformers de Visión
Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers
July 28, 2025
Autores: Lukman Jibril Aliyu, Umar Sani Muhammad, Bilqisu Ismail, Nasiru Muhammad, Almustapha A Wakili, Seid Muhie Yimam, Shamsuddeen Hassan Muhammad, Mustapha Abdullahi
cs.AI
Resumen
Las poblaciones de vida silvestre en África enfrentan graves amenazas, con una disminución de más del 65% en el número de vertebrados en las últimas cinco décadas. En respuesta, la clasificación de imágenes mediante aprendizaje profundo ha surgido como una herramienta prometedora para el monitoreo y la conservación de la biodiversidad. Este artículo presenta un estudio comparativo de modelos de aprendizaje profundo para la clasificación automática de imágenes de vida silvestre africana, centrándose en el aprendizaje por transferencia con extractores de características congelados. Utilizando un conjunto de datos público de cuatro especies: búfalo, elefante, rinoceronte y cebra; evaluamos el rendimiento de DenseNet-201, ResNet-152, EfficientNet-B4 y el Transformer de Visión ViT-H/14. DenseNet-201 logró el mejor rendimiento entre las redes convolucionales (67% de precisión), mientras que ViT-H/14 alcanzó la mayor precisión general (99%), pero con un costo computacional significativamente mayor, lo que plantea preocupaciones sobre su implementación. Nuestros experimentos destacan las compensaciones entre precisión, requisitos de recursos y capacidad de implementación. La CNN con mejor rendimiento (DenseNet-201) se integró en un espacio Gradio de Hugging Face para uso en tiempo real en el campo, demostrando la viabilidad de implementar modelos ligeros en entornos de conservación. Este trabajo contribuye a la investigación de IA con base en África al ofrecer ideas prácticas sobre la selección de modelos, la preparación de conjuntos de datos y la implementación responsable de herramientas de aprendizaje profundo para la conservación de la vida silvestre.
English
Wildlife populations in Africa face severe threats, with vertebrate numbers
declining by over 65% in the past five decades. In response, image
classification using deep learning has emerged as a promising tool for
biodiversity monitoring and conservation. This paper presents a comparative
study of deep learning models for automatically classifying African wildlife
images, focusing on transfer learning with frozen feature extractors. Using a
public dataset of four species: buffalo, elephant, rhinoceros, and zebra; we
evaluate the performance of DenseNet-201, ResNet-152, EfficientNet-B4, and
Vision Transformer ViT-H/14. DenseNet-201 achieved the best performance among
convolutional networks (67% accuracy), while ViT-H/14 achieved the highest
overall accuracy (99%), but with significantly higher computational cost,
raising deployment concerns. Our experiments highlight the trade-offs between
accuracy, resource requirements, and deployability. The best-performing CNN
(DenseNet-201) was integrated into a Hugging Face Gradio Space for real-time
field use, demonstrating the feasibility of deploying lightweight models in
conservation settings. This work contributes to African-grounded AI research by
offering practical insights into model selection, dataset preparation, and
responsible deployment of deep learning tools for wildlife conservation.