Kvasir-VQA: Un conjunto de datos de pares de texto e imagen del tracto gastrointestinal.

Resumen

Presentamos Kvasir-VQA, un conjunto de datos ampliado derivado de los conjuntos de datos HyperKvasir y Kvasir-Instrument, aumentado con anotaciones de preguntas y respuestas para facilitar tareas avanzadas de aprendizaje automático en diagnósticos gastrointestinales (GI). Este conjunto de datos consta de 6,500 imágenes anotadas que abarcan diversas condiciones del tracto GI e instrumentos quirúrgicos, y admite varios tipos de preguntas, incluidas sí/no, opción, ubicación y recuento numérico. El conjunto de datos está destinado para aplicaciones como subtitulado de imágenes, Respuesta a Preguntas Visuales (VQA), generación de imágenes médicas sintéticas basadas en texto, detección de objetos y clasificación. Nuestros experimentos demuestran la efectividad del conjunto de datos en el entrenamiento de modelos para tres tareas seleccionadas, mostrando aplicaciones significativas en el análisis de imágenes médicas y diagnósticos. También presentamos métricas de evaluación para cada tarea, resaltando la usabilidad y versatilidad de nuestro conjunto de datos. El conjunto de datos y los artefactos de apoyo están disponibles en https://datasets.simula.no/kvasir-vqa.

English

We introduce Kvasir-VQA, an extended dataset derived from the HyperKvasir and Kvasir-Instrument datasets, augmented with question-and-answer annotations to facilitate advanced machine learning tasks in Gastrointestinal (GI) diagnostics. This dataset comprises 6,500 annotated images spanning various GI tract conditions and surgical instruments, and it supports multiple question types including yes/no, choice, location, and numerical count. The dataset is intended for applications such as image captioning, Visual Question Answering (VQA), text-based generation of synthetic medical images, object detection, and classification. Our experiments demonstrate the dataset's effectiveness in training models for three selected tasks, showcasing significant applications in medical image analysis and diagnostics. We also present evaluation metrics for each task, highlighting the usability and versatility of our dataset. The dataset and supporting artifacts are available at https://datasets.simula.no/kvasir-vqa.

Kvasir-VQA: Un conjunto de datos de pares de texto e imagen del tracto gastrointestinal.

Kvasir-VQA: A Text-Image Pair GI Tract Dataset

Resumen

Support