Kvasir-VQA : Un ensemble de données de paires texte-image du tractus gastro-intestinal
Kvasir-VQA: A Text-Image Pair GI Tract Dataset
September 2, 2024
Auteurs: Sushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler
cs.AI
Résumé
Nous présentons Kvasir-VQA, un ensemble de données étendu dérivé des ensembles de données HyperKvasir et Kvasir-Instrument, augmenté d'annotations de questions-réponses pour faciliter les tâches avancées d'apprentissage automatique en diagnostics gastro-intestinaux. Cet ensemble de données comprend 6 500 images annotées couvrant diverses conditions du tractus gastro-intestinal et instruments chirurgicaux, et prend en charge plusieurs types de questions, notamment oui/non, choix, localisation et décompte numérique. L'ensemble de données est destiné à des applications telles que la génération de légendes d'images, la Réponse aux Questions Visuelles (VQA), la génération de textes pour des images médicales synthétiques, la détection d'objets et la classification. Nos expériences démontrent l'efficacité de l'ensemble de données dans la formation de modèles pour trois tâches sélectionnées, mettant en avant des applications significatives dans l'analyse d'images médicales et les diagnostics. Nous présentons également des métriques d'évaluation pour chaque tâche, soulignant l'utilité et la polyvalence de notre ensemble de données. L'ensemble de données et les artefacts de support sont disponibles sur https://datasets.simula.no/kvasir-vqa.
English
We introduce Kvasir-VQA, an extended dataset derived from the HyperKvasir and
Kvasir-Instrument datasets, augmented with question-and-answer annotations to
facilitate advanced machine learning tasks in Gastrointestinal (GI)
diagnostics. This dataset comprises 6,500 annotated images spanning various GI
tract conditions and surgical instruments, and it supports multiple question
types including yes/no, choice, location, and numerical count. The dataset is
intended for applications such as image captioning, Visual Question Answering
(VQA), text-based generation of synthetic medical images, object detection, and
classification. Our experiments demonstrate the dataset's effectiveness in
training models for three selected tasks, showcasing significant applications
in medical image analysis and diagnostics. We also present evaluation metrics
for each task, highlighting the usability and versatility of our dataset. The
dataset and supporting artifacts are available at
https://datasets.simula.no/kvasir-vqa.