VisText-Mosquito: AI 기반 모기 번식지 탐지 및 추론을 위한 다중모달 데이터셋 및 벤치마크
VisText-Mosquito: A Multimodal Dataset and Benchmark for AI-Based Mosquito Breeding Site Detection and Reasoning
June 17, 2025
저자: Md. Adnanul Islam, Md. Faiyaz Abdullah Sayeedi, Md. Asaduzzaman Shuvo, Muhammad Ziaur Rahman, Shahanur Rahman Bappy, Raiyan Rahman, Swakkhar Shatabda
cs.AI
초록
모기 매개 질환은 전 세계적으로 주요 건강 위험 요인으로, 발병을 예방하기 위해 조기 탐지와 번식지에 대한 사전적 통제가 필요합니다. 본 논문에서는 모기 번식지 분석을 위한 자동화된 탐지, 분할 및 추론을 지원하기 위해 시각적 데이터와 텍스트 데이터를 통합한 다중모달 데이터셋인 VisText-Mosquito를 소개합니다. 이 데이터셋은 객체 탐지를 위한 1,828개의 주석이 달린 이미지, 수면 분할을 위한 142개의 이미지, 그리고 각 이미지와 연결된 자연어 추론 텍스트를 포함합니다. YOLOv9s 모델은 객체 탐지에서 0.92926의 최고 정밀도와 0.92891의 mAP@50을 달성했으며, YOLOv11n-Seg는 분할 정밀도 0.91587과 mAP@50 0.79795를 기록했습니다. 추론 생성에서는 미세 조정된 BLIP 모델이 최종 손실 0.0028, BLEU 점수 54.7, BERTScore 0.91, ROUGE-L 0.87을 달성했습니다. 이 데이터셋과 모델 프레임워크는 "예방이 치료보다 낫다"라는 주제를 강조하며, AI 기반 탐지가 모기 매개 질환 위험을 사전에 대처할 수 있는 방법을 보여줍니다. 데이터셋과 구현 코드는 GitHub에서 공개되어 있습니다: https://github.com/adnanul-islam-jisun/VisText-Mosquito
English
Mosquito-borne diseases pose a major global health risk, requiring early
detection and proactive control of breeding sites to prevent outbreaks. In this
paper, we present VisText-Mosquito, a multimodal dataset that integrates visual
and textual data to support automated detection, segmentation, and reasoning
for mosquito breeding site analysis. The dataset includes 1,828 annotated
images for object detection, 142 images for water surface segmentation, and
natural language reasoning texts linked to each image. The YOLOv9s model
achieves the highest precision of 0.92926 and mAP@50 of 0.92891 for object
detection, while YOLOv11n-Seg reaches a segmentation precision of 0.91587 and
mAP@50 of 0.79795. For reasoning generation, our fine-tuned BLIP model achieves
a final loss of 0.0028, with a BLEU score of 54.7, BERTScore of 0.91, and
ROUGE-L of 0.87. This dataset and model framework emphasize the theme
"Prevention is Better than Cure", showcasing how AI-based detection can
proactively address mosquito-borne disease risks. The dataset and
implementation code are publicly available at GitHub:
https://github.com/adnanul-islam-jisun/VisText-Mosquito