Naar visuele herkenning van vis met fijnmijnerige classificatie voor elektronische monitoring in de visserij
Towards Visual Re-Identification of Fish using Fine-Grained Classification for Electronic Monitoring in Fisheries
December 9, 2025
Auteurs: Samitha Nuwan Thilakarathna, Ercan Avsar, Martin Mathias Nielsen, Malte Pedersen
cs.AI
Samenvatting
Nauwkeurige visserijgegevens zijn cruciaal voor effectief en duurzaam beheer van mariene hulpbronnen. Met de recente invoering van elektronische monitoring (EM)-systemen wordt er nu meer videodata verzameld dan haalbaar handmatig kan worden beoordeeld. Dit artikel pakt deze uitdaging aan door een geoptimaliseerde deep learning-pijplijn te ontwikkelen voor automatische heridentificatie (Re-ID) van vissen, gebruikmakend van de nieuwe AutoFish-dataset. Deze dataset simuleert EM-systemen met transportbanden met zes visueel gelijkende vissoorten. Wij tonen aan dat belangrijke Re-ID-maatstaven (R1 en mAP@k) aanzienlijk verbeteren door gebruik te maken van 'hard triplet mining' in combinatie met een aangepaste pijplijn voor beeldtransformatie die datasetspecifieke normalisatie omvat. Door deze strategieën toe te passen, demonstreren wij dat de op Vision Transformer gebaseerde Swin-T-architectuur consequent beter presteert dan de op convolutioneel neuraal netwerk gebaseerde ResNet-50, met een piekprestatie van 41,65% mAP@k en 90,43% Rank-1 nauwkeurigheid. Een diepgaande analyse toont aan dat de primaire uitdaging ligt in het onderscheiden van visueel gelijkende individuen van dezelfde soort (intraspecifieke fouten), waarbij inconsistentie in gezichtspunt aanzienlijk nadeliger blijkt dan gedeeltelijke occlusie. De broncode en documentatie zijn beschikbaar op: https://github.com/msamdk/Fish_Re_Identification.git
English
Accurate fisheries data are crucial for effective and sustainable marine resource management. With the recent adoption of Electronic Monitoring (EM) systems, more video data is now being collected than can be feasibly reviewed manually. This paper addresses this challenge by developing an optimized deep learning pipeline for automated fish re-identification (Re-ID) using the novel AutoFish dataset, which simulates EM systems with conveyor belts with six similarly looking fish species. We demonstrate that key Re-ID metrics (R1 and mAP@k) are substantially improved by using hard triplet mining in conjunction with a custom image transformation pipeline that includes dataset-specific normalization. By employing these strategies, we demonstrate that the Vision Transformer-based Swin-T architecture consistently outperforms the Convolutional Neural Network-based ResNet-50, achieving peak performance of 41.65% mAP@k and 90.43% Rank-1 accuracy. An in-depth analysis reveals that the primary challenge is distinguishing visually similar individuals of the same species (Intra-species errors), where viewpoint inconsistency proves significantly more detrimental than partial occlusion. The source code and documentation are available at: https://github.com/msamdk/Fish_Re_Identification.git