Avaliação de Modelos de Aprendizado Profundo para Classificação de Imagens da Vida Selvagem Africana: Do DenseNet aos Transformers de Visão
Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers
July 28, 2025
Autores: Lukman Jibril Aliyu, Umar Sani Muhammad, Bilqisu Ismail, Nasiru Muhammad, Almustapha A Wakili, Seid Muhie Yimam, Shamsuddeen Hassan Muhammad, Mustapha Abdullahi
cs.AI
Resumo
As populações de vida selvagem na África enfrentam ameaças severas, com o número de vertebrados diminuindo mais de 65% nas últimas cinco décadas. Em resposta, a classificação de imagens usando aprendizado profundo surgiu como uma ferramenta promissora para o monitoramento e conservação da biodiversidade. Este artigo apresenta um estudo comparativo de modelos de aprendizado profundo para a classificação automática de imagens de vida selvagem africana, com foco na transferência de aprendizagem com extratores de características congelados. Utilizando um conjunto de dados público de quatro espécies: búfalo, elefante, rinoceronte e zebra; avaliamos o desempenho de DenseNet-201, ResNet-152, EfficientNet-B4 e Vision Transformer ViT-H/14. O DenseNet-201 obteve o melhor desempenho entre as redes convolucionais (67% de precisão), enquanto o ViT-H/14 alcançou a maior precisão geral (99%), mas com um custo computacional significativamente maior, levantando preocupações sobre a implantação. Nossos experimentos destacam as compensações entre precisão, requisitos de recursos e capacidade de implantação. A CNN de melhor desempenho (DenseNet-201) foi integrada a um Hugging Face Gradio Space para uso em tempo real em campo, demonstrando a viabilidade de implantar modelos leves em contextos de conservação. Este trabalho contribui para a pesquisa em IA com base na África, oferecendo insights práticos sobre seleção de modelos, preparação de conjuntos de dados e implantação responsável de ferramentas de aprendizado profundo para a conservação da vida selvagem.
English
Wildlife populations in Africa face severe threats, with vertebrate numbers
declining by over 65% in the past five decades. In response, image
classification using deep learning has emerged as a promising tool for
biodiversity monitoring and conservation. This paper presents a comparative
study of deep learning models for automatically classifying African wildlife
images, focusing on transfer learning with frozen feature extractors. Using a
public dataset of four species: buffalo, elephant, rhinoceros, and zebra; we
evaluate the performance of DenseNet-201, ResNet-152, EfficientNet-B4, and
Vision Transformer ViT-H/14. DenseNet-201 achieved the best performance among
convolutional networks (67% accuracy), while ViT-H/14 achieved the highest
overall accuracy (99%), but with significantly higher computational cost,
raising deployment concerns. Our experiments highlight the trade-offs between
accuracy, resource requirements, and deployability. The best-performing CNN
(DenseNet-201) was integrated into a Hugging Face Gradio Space for real-time
field use, demonstrating the feasibility of deploying lightweight models in
conservation settings. This work contributes to African-grounded AI research by
offering practical insights into model selection, dataset preparation, and
responsible deployment of deep learning tools for wildlife conservation.