ChatPaper.aiChatPaper

Kvasir-VQA: Ein Datensatz für Text-Bild-Paare des Magen-Darm-Trakts

Kvasir-VQA: A Text-Image Pair GI Tract Dataset

September 2, 2024
Autoren: Sushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler
cs.AI

Zusammenfassung

Wir stellen Kvasir-VQA vor, ein erweitertes Datenset, das aus den Datensets HyperKvasir und Kvasir-Instrument abgeleitet ist und mit Frage-Antwort-Annotationen angereichert wurde, um fortgeschrittene maschinelle Lernaufgaben in der gastroenterologischen Diagnostik zu erleichtern. Dieses Datenset umfasst 6.500 annotierte Bilder, die verschiedene Zustände des Gastrointestinaltrakts und chirurgische Instrumente abdecken, und unterstützt mehrere Fragetypen, darunter Ja/Nein, Auswahl, Lokation und numerische Zählung. Das Datenset ist für Anwendungen wie Bildbeschreibung, Visuelle Frage-Antwort (VQA), textbasierte Generierung synthetischer medizinischer Bilder, Objekterkennung und Klassifizierung vorgesehen. Unsere Experimente zeigen die Wirksamkeit des Datensets bei der Schulung von Modellen für drei ausgewählte Aufgaben und präsentieren signifikante Anwendungen in der medizinischen Bildanalyse und Diagnostik. Wir stellen auch Evaluationsmetriken für jede Aufgabe vor, die die Benutzerfreundlichkeit und Vielseitigkeit unseres Datensets hervorheben. Das Datenset und unterstützende Artefakte sind verfügbar unter https://datasets.simula.no/kvasir-vqa.
English
We introduce Kvasir-VQA, an extended dataset derived from the HyperKvasir and Kvasir-Instrument datasets, augmented with question-and-answer annotations to facilitate advanced machine learning tasks in Gastrointestinal (GI) diagnostics. This dataset comprises 6,500 annotated images spanning various GI tract conditions and surgical instruments, and it supports multiple question types including yes/no, choice, location, and numerical count. The dataset is intended for applications such as image captioning, Visual Question Answering (VQA), text-based generation of synthetic medical images, object detection, and classification. Our experiments demonstrate the dataset's effectiveness in training models for three selected tasks, showcasing significant applications in medical image analysis and diagnostics. We also present evaluation metrics for each task, highlighting the usability and versatility of our dataset. The dataset and supporting artifacts are available at https://datasets.simula.no/kvasir-vqa.

Summary

AI-Generated Summary

PDF722November 16, 2024