Kvasir-VQA: Een tekst-beeldpaar dataset voor het maag-darmkanaal
Kvasir-VQA: A Text-Image Pair GI Tract Dataset
September 2, 2024
Auteurs: Sushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler
cs.AI
Samenvatting
We introduceren Kvasir-VQA, een uitgebreide dataset afgeleid van de HyperKvasir- en Kvasir-Instrument-datasets, verrijkt met vraag-en-antwoordannotaties om geavanceerde machine learning-taken in gastro-intestinale (GI) diagnostiek te faciliteren. Deze dataset omvat 6.500 geannoteerde afbeeldingen die verschillende aandoeningen van het GI-kanaal en chirurgische instrumenten beslaan, en ondersteunt meerdere vraagtypen, waaronder ja/nee, keuze, locatie en numerieke telling. De dataset is bedoeld voor toepassingen zoals beeldbeschrijving, Visuele Vraag Beantwoording (VQA), tekstgebaseerde generatie van synthetische medische afbeeldingen, objectdetectie en classificatie. Onze experimenten tonen de effectiviteit van de dataset aan bij het trainen van modellen voor drie geselecteerde taken, wat significante toepassingen in medische beeldanalyse en diagnostiek aantoont. We presenteren ook evaluatiemetrices voor elke taak, waarbij de bruikbaarheid en veelzijdigheid van onze dataset worden benadrukt. De dataset en ondersteunende artefacten zijn beschikbaar op https://datasets.simula.no/kvasir-vqa.
English
We introduce Kvasir-VQA, an extended dataset derived from the HyperKvasir and
Kvasir-Instrument datasets, augmented with question-and-answer annotations to
facilitate advanced machine learning tasks in Gastrointestinal (GI)
diagnostics. This dataset comprises 6,500 annotated images spanning various GI
tract conditions and surgical instruments, and it supports multiple question
types including yes/no, choice, location, and numerical count. The dataset is
intended for applications such as image captioning, Visual Question Answering
(VQA), text-based generation of synthetic medical images, object detection, and
classification. Our experiments demonstrate the dataset's effectiveness in
training models for three selected tasks, showcasing significant applications
in medical image analysis and diagnostics. We also present evaluation metrics
for each task, highlighting the usability and versatility of our dataset. The
dataset and supporting artifacts are available at
https://datasets.simula.no/kvasir-vqa.Summary
AI-Generated Summary