Rumo à Reidentificação Visual de Peixes usando Classificação de Granulação Fina para Monitoramento Eletrônico em Pescarias
Towards Visual Re-Identification of Fish using Fine-Grained Classification for Electronic Monitoring in Fisheries
December 9, 2025
Autores: Samitha Nuwan Thilakarathna, Ercan Avsar, Martin Mathias Nielsen, Malte Pedersen
cs.AI
Resumo
Dados pesqueiros precisos são cruciais para uma gestão eficaz e sustentável dos recursos marinhos. Com a recente adoção de sistemas de Monitoramento Eletrônico (EM), mais dados de vídeo estão sendo coletados do que é viável analisar manualmente. Este artigo aborda esse desafio desenvolvendo um *pipeline* de aprendizado profundo otimizado para a reidentificação (Re-ID) automatizada de peixes usando o novo conjunto de dados AutoFish, que simula sistemas EM com esteiras transportadoras contendo seis espécies de peixes de aparência similar. Demonstramos que as principais métricas de Re-ID (R1 e mAP@k) são substancialmente melhoradas usando a mineração de triplas difíceis em conjunto com um *pipeline* personalizado de transformação de imagens que inclui normalização específica para o conjunto de dados. Ao empregar essas estratégias, demonstramos que a arquitetura Swin-T, baseada em Vision Transformer, supera consistentemente a ResNet-50, baseada em Rede Neural Convolucional, atingindo um desempenho máximo de 41,65% mAP@k e 90,43% de precisão Rank-1. Uma análise aprofundada revela que o principal desafio é distinguir indivíduos visualmente similares da mesma espécie (erros intraespécie), nos quais a inconsistência do ponto de vista se mostra significamente mais prejudicial do que a oclusão parcial. O código-fonte e a documentação estão disponíveis em: https://github.com/msamdk/Fish_Re_Identification.git
English
Accurate fisheries data are crucial for effective and sustainable marine resource management. With the recent adoption of Electronic Monitoring (EM) systems, more video data is now being collected than can be feasibly reviewed manually. This paper addresses this challenge by developing an optimized deep learning pipeline for automated fish re-identification (Re-ID) using the novel AutoFish dataset, which simulates EM systems with conveyor belts with six similarly looking fish species. We demonstrate that key Re-ID metrics (R1 and mAP@k) are substantially improved by using hard triplet mining in conjunction with a custom image transformation pipeline that includes dataset-specific normalization. By employing these strategies, we demonstrate that the Vision Transformer-based Swin-T architecture consistently outperforms the Convolutional Neural Network-based ResNet-50, achieving peak performance of 41.65% mAP@k and 90.43% Rank-1 accuracy. An in-depth analysis reveals that the primary challenge is distinguishing visually similar individuals of the same species (Intra-species errors), where viewpoint inconsistency proves significantly more detrimental than partial occlusion. The source code and documentation are available at: https://github.com/msamdk/Fish_Re_Identification.git