Kvasir-VQA: Um Conjunto de Dados de Pares Texto-Imagem do Trato Gastrointestinal
Kvasir-VQA: A Text-Image Pair GI Tract Dataset
September 2, 2024
Autores: Sushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler
cs.AI
Resumo
Apresentamos o Kvasir-VQA, um conjunto de dados expandido derivado dos conjuntos de dados HyperKvasir e Kvasir-Instrument, aumentado com anotações de perguntas e respostas para facilitar tarefas avançadas de aprendizado de máquina em diagnósticos gastrointestinais (GI). Este conjunto de dados compreende 6.500 imagens anotadas abrangendo várias condições do trato GI e instrumentos cirúrgicos, e suporta múltiplos tipos de perguntas, incluindo sim/não, escolha, localização e contagem numérica. O conjunto de dados é destinado a aplicações como legendagem de imagens, Resposta a Perguntas Visuais (VQA), geração baseada em texto de imagens médicas sintéticas, detecção de objetos e classificação. Nossos experimentos demonstram a eficácia do conjunto de dados no treinamento de modelos para três tarefas selecionadas, destacando aplicações significativas em análise de imagens médicas e diagnósticos. Também apresentamos métricas de avaliação para cada tarefa, destacando a usabilidade e versatilidade de nosso conjunto de dados. O conjunto de dados e artefatos de suporte estão disponíveis em https://datasets.simula.no/kvasir-vqa.
English
We introduce Kvasir-VQA, an extended dataset derived from the HyperKvasir and
Kvasir-Instrument datasets, augmented with question-and-answer annotations to
facilitate advanced machine learning tasks in Gastrointestinal (GI)
diagnostics. This dataset comprises 6,500 annotated images spanning various GI
tract conditions and surgical instruments, and it supports multiple question
types including yes/no, choice, location, and numerical count. The dataset is
intended for applications such as image captioning, Visual Question Answering
(VQA), text-based generation of synthetic medical images, object detection, and
classification. Our experiments demonstrate the dataset's effectiveness in
training models for three selected tasks, showcasing significant applications
in medical image analysis and diagnostics. We also present evaluation metrics
for each task, highlighting the usability and versatility of our dataset. The
dataset and supporting artifacts are available at
https://datasets.simula.no/kvasir-vqa.Summary
AI-Generated Summary