Kvasir-VQA: Un conjunto de datos de pares de texto e imagen del tracto gastrointestinal.
Kvasir-VQA: A Text-Image Pair GI Tract Dataset
September 2, 2024
Autores: Sushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler
cs.AI
Resumen
Presentamos Kvasir-VQA, un conjunto de datos ampliado derivado de los conjuntos de datos HyperKvasir y Kvasir-Instrument, aumentado con anotaciones de preguntas y respuestas para facilitar tareas avanzadas de aprendizaje automático en diagnósticos gastrointestinales (GI). Este conjunto de datos consta de 6,500 imágenes anotadas que abarcan diversas condiciones del tracto GI e instrumentos quirúrgicos, y admite varios tipos de preguntas, incluidas sí/no, opción, ubicación y recuento numérico. El conjunto de datos está destinado para aplicaciones como subtitulado de imágenes, Respuesta a Preguntas Visuales (VQA), generación de imágenes médicas sintéticas basadas en texto, detección de objetos y clasificación. Nuestros experimentos demuestran la efectividad del conjunto de datos en el entrenamiento de modelos para tres tareas seleccionadas, mostrando aplicaciones significativas en el análisis de imágenes médicas y diagnósticos. También presentamos métricas de evaluación para cada tarea, resaltando la usabilidad y versatilidad de nuestro conjunto de datos. El conjunto de datos y los artefactos de apoyo están disponibles en https://datasets.simula.no/kvasir-vqa.
English
We introduce Kvasir-VQA, an extended dataset derived from the HyperKvasir and
Kvasir-Instrument datasets, augmented with question-and-answer annotations to
facilitate advanced machine learning tasks in Gastrointestinal (GI)
diagnostics. This dataset comprises 6,500 annotated images spanning various GI
tract conditions and surgical instruments, and it supports multiple question
types including yes/no, choice, location, and numerical count. The dataset is
intended for applications such as image captioning, Visual Question Answering
(VQA), text-based generation of synthetic medical images, object detection, and
classification. Our experiments demonstrate the dataset's effectiveness in
training models for three selected tasks, showcasing significant applications
in medical image analysis and diagnostics. We also present evaluation metrics
for each task, highlighting the usability and versatility of our dataset. The
dataset and supporting artifacts are available at
https://datasets.simula.no/kvasir-vqa.Summary
AI-Generated Summary