Kvasir-VQA: un dataset di coppie testo-immagine del tratto gastrointestinale
Kvasir-VQA: A Text-Image Pair GI Tract Dataset
September 2, 2024
Autori: Sushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler
cs.AI
Abstract
Introduciamo Kvasir-VQA, un dataset esteso derivato dai dataset HyperKvasir e Kvasir-Instrument, arricchito con annotazioni di domande e risposte per agevolare compiti avanzati di apprendimento automatico nella diagnostica gastrointestinale (GI). Questo dataset comprende 6.500 immagini annotate che coprono varie condizioni del tratto GI e strumenti chirurgici, supportando diversi tipi di domande tra cui sì/no, scelta, posizione e conteggio numerico. Il dataset è destinato ad applicazioni come descrizione delle immagini, Risposta alle Domande Visive (VQA), generazione basata su testo di immagini mediche sintetiche, rilevamento oggetti e classificazione. I nostri esperimenti dimostrano l'efficacia del dataset nel addestrare modelli per tre compiti selezionati, evidenziando significative applicazioni nell'analisi e nella diagnostica delle immagini mediche. Presentiamo inoltre metriche di valutazione per ciascun compito, mettendo in risalto l'usabilità e la versatilità del nostro dataset. Il dataset e gli artefatti di supporto sono disponibili su https://datasets.simula.no/kvasir-vqa.
English
We introduce Kvasir-VQA, an extended dataset derived from the HyperKvasir and
Kvasir-Instrument datasets, augmented with question-and-answer annotations to
facilitate advanced machine learning tasks in Gastrointestinal (GI)
diagnostics. This dataset comprises 6,500 annotated images spanning various GI
tract conditions and surgical instruments, and it supports multiple question
types including yes/no, choice, location, and numerical count. The dataset is
intended for applications such as image captioning, Visual Question Answering
(VQA), text-based generation of synthetic medical images, object detection, and
classification. Our experiments demonstrate the dataset's effectiveness in
training models for three selected tasks, showcasing significant applications
in medical image analysis and diagnostics. We also present evaluation metrics
for each task, highlighting the usability and versatility of our dataset. The
dataset and supporting artifacts are available at
https://datasets.simula.no/kvasir-vqa.