Hacia la Reidentificación Visual de Peces mediante Clasificación de Grano Fino para la Monitorización Electrónica en Pesquerías
Towards Visual Re-Identification of Fish using Fine-Grained Classification for Electronic Monitoring in Fisheries
December 9, 2025
Autores: Samitha Nuwan Thilakarathna, Ercan Avsar, Martin Mathias Nielsen, Malte Pedersen
cs.AI
Resumen
Los datos pesqueros precisos son cruciales para una gestión eficaz y sostenible de los recursos marinos. Con la reciente adopción de sistemas de Monitoreo Electrónico (EM), ahora se recopilan más datos de video de los que es factible revisar manualmente. Este artículo aborda este desafío desarrollando un pipeline optimizado de aprendizaje profundo para la re-identificación (Re-ID) automatizada de peces utilizando el nuevo conjunto de datos AutoFish, que simula sistemas EM con cintas transportadoras con seis especies de peces de apariencia similar. Demostramos que las métricas clave de Re-ID (R1 y mAP@k) mejoran sustancialmente mediante el uso de hard triplet mining en conjunto con un pipeline personalizado de transformación de imágenes que incluye una normalización específica del conjunto de datos. Al emplear estas estrategias, demostramos que la arquitectura Swin-T basada en Vision Transformer supera consistentemente a la ResNet-50 basada en Redes Neuronales Convolucionales, logrando un rendimiento máximo del 41,65% en mAP@k y una precisión Rank-1 del 90,43%. Un análisis en profundidad revela que el principal desafío es distinguir individuos visualmente similares de la misma especie (errores intra-especie), donde la inconsistencia del punto de vista resulta significativamente más perjudicial que la oclusión parcial. El código fuente y la documentación están disponibles en: https://github.com/msamdk/Fish_Re_Identification.git
English
Accurate fisheries data are crucial for effective and sustainable marine resource management. With the recent adoption of Electronic Monitoring (EM) systems, more video data is now being collected than can be feasibly reviewed manually. This paper addresses this challenge by developing an optimized deep learning pipeline for automated fish re-identification (Re-ID) using the novel AutoFish dataset, which simulates EM systems with conveyor belts with six similarly looking fish species. We demonstrate that key Re-ID metrics (R1 and mAP@k) are substantially improved by using hard triplet mining in conjunction with a custom image transformation pipeline that includes dataset-specific normalization. By employing these strategies, we demonstrate that the Vision Transformer-based Swin-T architecture consistently outperforms the Convolutional Neural Network-based ResNet-50, achieving peak performance of 41.65% mAP@k and 90.43% Rank-1 accuracy. An in-depth analysis reveals that the primary challenge is distinguishing visually similar individuals of the same species (Intra-species errors), where viewpoint inconsistency proves significantly more detrimental than partial occlusion. The source code and documentation are available at: https://github.com/msamdk/Fish_Re_Identification.git