Verso il Riconoscimento Visivo dei Pesci mediante Classificazione Fine-Grained per il Monitoraggio Elettronico nella Pesca
Towards Visual Re-Identification of Fish using Fine-Grained Classification for Electronic Monitoring in Fisheries
December 9, 2025
Autori: Samitha Nuwan Thilakarathna, Ercan Avsar, Martin Mathias Nielsen, Malte Pedersen
cs.AI
Abstract
I dati ittici accurati sono cruciali per una gestione efficace e sostenibile delle risorse marine. Con la recente adozione dei sistemi di Monitoraggio Elettronico (EM), vengono ora raccolti più dati video di quanti sia fattibile revisionare manualmente. Questo articolo affronta questa sfida sviluppando una pipeline ottimizzata di deep learning per la ri-identificazione (Re-ID) automatizzata dei pesci, utilizzando il nuovo dataset AutoFish, che simula sistemi EM con nastri trasportatori contenenti sei specie ittiche dall'aspetto simile. Dimostriamo che le metriche chiave della Re-ID (R1 e mAP@k) vengono sostanzialmente migliorate utilizzando l'hard triplet mining insieme a una pipeline personalizzata di trasformazione delle immagini che include una normalizzazione specifica per il dataset. Impiegando queste strategie, dimostriamo che l'architettura Swin-T, basata su Vision Transformer, supera costantemente la ResNet-50, basata su Rete Neurale Convoluzionale, raggiungendo prestazioni massime del 41,65% in mAP@k e del 90,43% in accuratezza Rank-1. Un'analisi approfondita rivela che la sfida principale è distinguere individui visivamente simili della stessa specie (errori intra-specie), dove l'inconsistenza del punto di vista si rivela significativamente più dannosa dell'occlusione parziale. Il codice sorgente e la documentazione sono disponibili all'indirizzo: https://github.com/msamdk/Fish_Re_Identification.git.
English
Accurate fisheries data are crucial for effective and sustainable marine resource management. With the recent adoption of Electronic Monitoring (EM) systems, more video data is now being collected than can be feasibly reviewed manually. This paper addresses this challenge by developing an optimized deep learning pipeline for automated fish re-identification (Re-ID) using the novel AutoFish dataset, which simulates EM systems with conveyor belts with six similarly looking fish species. We demonstrate that key Re-ID metrics (R1 and mAP@k) are substantially improved by using hard triplet mining in conjunction with a custom image transformation pipeline that includes dataset-specific normalization. By employing these strategies, we demonstrate that the Vision Transformer-based Swin-T architecture consistently outperforms the Convolutional Neural Network-based ResNet-50, achieving peak performance of 41.65% mAP@k and 90.43% Rank-1 accuracy. An in-depth analysis reveals that the primary challenge is distinguishing visually similar individuals of the same species (Intra-species errors), where viewpoint inconsistency proves significantly more detrimental than partial occlusion. The source code and documentation are available at: https://github.com/msamdk/Fish_Re_Identification.git