Evaluación de Modelos de Aprendizaje Profundo para la Clasificación de Imágenes de Vida Silvestre Africana: Desde DenseNet hasta Transformers de Visión

Resumen

Las poblaciones de vida silvestre en África enfrentan graves amenazas, con una disminución de más del 65% en el número de vertebrados en las últimas cinco décadas. En respuesta, la clasificación de imágenes mediante aprendizaje profundo ha surgido como una herramienta prometedora para el monitoreo y la conservación de la biodiversidad. Este artículo presenta un estudio comparativo de modelos de aprendizaje profundo para la clasificación automática de imágenes de vida silvestre africana, centrándose en el aprendizaje por transferencia con extractores de características congelados. Utilizando un conjunto de datos público de cuatro especies: búfalo, elefante, rinoceronte y cebra; evaluamos el rendimiento de DenseNet-201, ResNet-152, EfficientNet-B4 y el Transformer de Visión ViT-H/14. DenseNet-201 logró el mejor rendimiento entre las redes convolucionales (67% de precisión), mientras que ViT-H/14 alcanzó la mayor precisión general (99%), pero con un costo computacional significativamente mayor, lo que plantea preocupaciones sobre su implementación. Nuestros experimentos destacan las compensaciones entre precisión, requisitos de recursos y capacidad de implementación. La CNN con mejor rendimiento (DenseNet-201) se integró en un espacio Gradio de Hugging Face para uso en tiempo real en el campo, demostrando la viabilidad de implementar modelos ligeros en entornos de conservación. Este trabajo contribuye a la investigación de IA con base en África al ofrecer ideas prácticas sobre la selección de modelos, la preparación de conjuntos de datos y la implementación responsable de herramientas de aprendizaje profundo para la conservación de la vida silvestre.

English

Wildlife populations in Africa face severe threats, with vertebrate numbers declining by over 65% in the past five decades. In response, image classification using deep learning has emerged as a promising tool for biodiversity monitoring and conservation. This paper presents a comparative study of deep learning models for automatically classifying African wildlife images, focusing on transfer learning with frozen feature extractors. Using a public dataset of four species: buffalo, elephant, rhinoceros, and zebra; we evaluate the performance of DenseNet-201, ResNet-152, EfficientNet-B4, and Vision Transformer ViT-H/14. DenseNet-201 achieved the best performance among convolutional networks (67% accuracy), while ViT-H/14 achieved the highest overall accuracy (99%), but with significantly higher computational cost, raising deployment concerns. Our experiments highlight the trade-offs between accuracy, resource requirements, and deployability. The best-performing CNN (DenseNet-201) was integrated into a Hugging Face Gradio Space for real-time field use, demonstrating the feasibility of deploying lightweight models in conservation settings. This work contributes to African-grounded AI research by offering practical insights into model selection, dataset preparation, and responsible deployment of deep learning tools for wildlife conservation.

Evaluación de Modelos de Aprendizaje Profundo para la Clasificación de Imágenes de Vida Silvestre Africana: Desde DenseNet hasta Transformers de Visión

Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers

Resumen

Support