VisText-Mosquito: Ein multimodaler Datensatz und Benchmark für KI-basierte Erkennung und Analyse von Moskitobrutstätten
VisText-Mosquito: A Multimodal Dataset and Benchmark for AI-Based Mosquito Breeding Site Detection and Reasoning
June 17, 2025
Autoren: Md. Adnanul Islam, Md. Faiyaz Abdullah Sayeedi, Md. Asaduzzaman Shuvo, Muhammad Ziaur Rahman, Shahanur Rahman Bappy, Raiyan Rahman, Swakkhar Shatabda
cs.AI
Zusammenfassung
Von Mücken übertragene Krankheiten stellen ein erhebliches globales Gesundheitsrisiko dar, das eine frühzeitige Erkennung und proaktive Kontrolle von Brutstätten erfordert, um Ausbrüche zu verhindern. In diesem Artikel präsentieren wir VisText-Mosquito, einen multimodalen Datensatz, der visuelle und textuelle Daten integriert, um die automatisierte Erkennung, Segmentierung und Schlussfolgerung für die Analyse von Mückenbrutstätten zu unterstützen. Der Datensatz umfasst 1.828 annotierte Bilder für die Objekterkennung, 142 Bilder für die Segmentierung von Wasseroberflächen und natürlichsprachliche Texte zur Schlussfolgerung, die mit jedem Bild verknüpft sind. Das YOLOv9s-Modell erreicht die höchste Präzision von 0,92926 und einen mAP@50 von 0,92891 für die Objekterkennung, während YOLOv11n-Seg eine Segmentierungspräzision von 0,91587 und einen mAP@50 von 0,79795 erreicht. Für die Generierung von Schlussfolgerungen erreicht unser feinabgestimmtes BLIP-Modell einen finalen Verlust von 0,0028, mit einem BLEU-Score von 54,7, einem BERTScore von 0,91 und einem ROUGE-L von 0,87. Dieser Datensatz und das Modellrahmenwerk betonen das Thema „Vorbeugen ist besser als Heilen“ und zeigen, wie KI-basierte Erkennung proaktiv die Risiken von durch Mücken übertragenen Krankheiten angehen kann. Der Datensatz und der Implementierungscode sind öffentlich auf GitHub verfügbar: https://github.com/adnanul-islam-jisun/VisText-Mosquito.
English
Mosquito-borne diseases pose a major global health risk, requiring early
detection and proactive control of breeding sites to prevent outbreaks. In this
paper, we present VisText-Mosquito, a multimodal dataset that integrates visual
and textual data to support automated detection, segmentation, and reasoning
for mosquito breeding site analysis. The dataset includes 1,828 annotated
images for object detection, 142 images for water surface segmentation, and
natural language reasoning texts linked to each image. The YOLOv9s model
achieves the highest precision of 0.92926 and mAP@50 of 0.92891 for object
detection, while YOLOv11n-Seg reaches a segmentation precision of 0.91587 and
mAP@50 of 0.79795. For reasoning generation, our fine-tuned BLIP model achieves
a final loss of 0.0028, with a BLEU score of 54.7, BERTScore of 0.91, and
ROUGE-L of 0.87. This dataset and model framework emphasize the theme
"Prevention is Better than Cure", showcasing how AI-based detection can
proactively address mosquito-borne disease risks. The dataset and
implementation code are publicly available at GitHub:
https://github.com/adnanul-islam-jisun/VisText-Mosquito