Avaliação de Modelos de Aprendizado Profundo para Classificação de Imagens da Vida Selvagem Africana: Do DenseNet aos Transformers de Visão

Resumo

As populações de vida selvagem na África enfrentam ameaças severas, com o número de vertebrados diminuindo mais de 65% nas últimas cinco décadas. Em resposta, a classificação de imagens usando aprendizado profundo surgiu como uma ferramenta promissora para o monitoramento e conservação da biodiversidade. Este artigo apresenta um estudo comparativo de modelos de aprendizado profundo para a classificação automática de imagens de vida selvagem africana, com foco na transferência de aprendizagem com extratores de características congelados. Utilizando um conjunto de dados público de quatro espécies: búfalo, elefante, rinoceronte e zebra; avaliamos o desempenho de DenseNet-201, ResNet-152, EfficientNet-B4 e Vision Transformer ViT-H/14. O DenseNet-201 obteve o melhor desempenho entre as redes convolucionais (67% de precisão), enquanto o ViT-H/14 alcançou a maior precisão geral (99%), mas com um custo computacional significativamente maior, levantando preocupações sobre a implantação. Nossos experimentos destacam as compensações entre precisão, requisitos de recursos e capacidade de implantação. A CNN de melhor desempenho (DenseNet-201) foi integrada a um Hugging Face Gradio Space para uso em tempo real em campo, demonstrando a viabilidade de implantar modelos leves em contextos de conservação. Este trabalho contribui para a pesquisa em IA com base na África, oferecendo insights práticos sobre seleção de modelos, preparação de conjuntos de dados e implantação responsável de ferramentas de aprendizado profundo para a conservação da vida selvagem.

English

Wildlife populations in Africa face severe threats, with vertebrate numbers declining by over 65% in the past five decades. In response, image classification using deep learning has emerged as a promising tool for biodiversity monitoring and conservation. This paper presents a comparative study of deep learning models for automatically classifying African wildlife images, focusing on transfer learning with frozen feature extractors. Using a public dataset of four species: buffalo, elephant, rhinoceros, and zebra; we evaluate the performance of DenseNet-201, ResNet-152, EfficientNet-B4, and Vision Transformer ViT-H/14. DenseNet-201 achieved the best performance among convolutional networks (67% accuracy), while ViT-H/14 achieved the highest overall accuracy (99%), but with significantly higher computational cost, raising deployment concerns. Our experiments highlight the trade-offs between accuracy, resource requirements, and deployability. The best-performing CNN (DenseNet-201) was integrated into a Hugging Face Gradio Space for real-time field use, demonstrating the feasibility of deploying lightweight models in conservation settings. This work contributes to African-grounded AI research by offering practical insights into model selection, dataset preparation, and responsible deployment of deep learning tools for wildlife conservation.

Avaliação de Modelos de Aprendizado Profundo para Classificação de Imagens da Vida Selvagem Africana: Do DenseNet aos Transformers de Visão

Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers

Resumo

Support