VisText-Mosquito: Un Conjunto de Datos Multimodal y Punto de Referencia para la Detección y Razonamiento Basado en IA de Sitios de Cría de Mosquitos
VisText-Mosquito: A Multimodal Dataset and Benchmark for AI-Based Mosquito Breeding Site Detection and Reasoning
June 17, 2025
Autores: Md. Adnanul Islam, Md. Faiyaz Abdullah Sayeedi, Md. Asaduzzaman Shuvo, Muhammad Ziaur Rahman, Shahanur Rahman Bappy, Raiyan Rahman, Swakkhar Shatabda
cs.AI
Resumen
Las enfermedades transmitidas por mosquitos representan un importante riesgo para la salud global, requiriendo la detección temprana y el control proactivo de los criaderos para prevenir brotes. En este artículo, presentamos VisText-Mosquito, un conjunto de datos multimodal que integra información visual y textual para apoyar la detección automatizada, la segmentación y el razonamiento en el análisis de criaderos de mosquitos. El conjunto de datos incluye 1,828 imágenes anotadas para la detección de objetos, 142 imágenes para la segmentación de superficies de agua y textos de razonamiento en lenguaje natural vinculados a cada imagen. El modelo YOLOv9s alcanza la mayor precisión de 0.92926 y un mAP@50 de 0.92891 para la detección de objetos, mientras que YOLOv11n-Seg logra una precisión de segmentación de 0.91587 y un mAP@50 de 0.79795. Para la generación de razonamiento, nuestro modelo BLIP ajustado alcanza una pérdida final de 0.0028, con un puntaje BLEU de 54.7, un BERTScore de 0.91 y un ROUGE-L de 0.87. Este conjunto de datos y marco de modelos enfatizan el tema "Prevenir es mejor que curar", demostrando cómo la detección basada en inteligencia artificial puede abordar proactivamente los riesgos de enfermedades transmitidas por mosquitos. El conjunto de datos y el código de implementación están disponibles públicamente en GitHub: https://github.com/adnanul-islam-jisun/VisText-Mosquito.
English
Mosquito-borne diseases pose a major global health risk, requiring early
detection and proactive control of breeding sites to prevent outbreaks. In this
paper, we present VisText-Mosquito, a multimodal dataset that integrates visual
and textual data to support automated detection, segmentation, and reasoning
for mosquito breeding site analysis. The dataset includes 1,828 annotated
images for object detection, 142 images for water surface segmentation, and
natural language reasoning texts linked to each image. The YOLOv9s model
achieves the highest precision of 0.92926 and mAP@50 of 0.92891 for object
detection, while YOLOv11n-Seg reaches a segmentation precision of 0.91587 and
mAP@50 of 0.79795. For reasoning generation, our fine-tuned BLIP model achieves
a final loss of 0.0028, with a BLEU score of 54.7, BERTScore of 0.91, and
ROUGE-L of 0.87. This dataset and model framework emphasize the theme
"Prevention is Better than Cure", showcasing how AI-based detection can
proactively address mosquito-borne disease risks. The dataset and
implementation code are publicly available at GitHub:
https://github.com/adnanul-islam-jisun/VisText-Mosquito