Kvasir-VQA: Набор данных пар текст-изображение ЖКТ
Kvasir-VQA: A Text-Image Pair GI Tract Dataset
September 2, 2024
Авторы: Sushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler
cs.AI
Аннотация
Мы представляем Kvasir-VQA, расширенный набор данных, производный от наборов данных HyperKvasir и Kvasir-Instrument, дополненный аннотациями вопросов и ответов для облегчения продвинутых задач машинного обучения в области диагностики желудочно-кишечного тракта (ЖКТ). Этот набор данных включает 6 500 аннотированных изображений, охватывающих различные состояния ЖКТ и хирургические инструменты, и поддерживает несколько типов вопросов, включая да/нет, выбор, местоположение и числовой подсчет. Набор данных предназначен для приложений, таких как описания изображений, визуальное вопросно-ответное взаимодействие (VQA), текстовое создание синтетических медицинских изображений, детектирование объектов и классификация. Наши эксперименты демонстрируют эффективность набора данных при обучении моделей для трех выбранных задач, показывая значительные применения в медицинском анализе изображений и диагностике. Мы также представляем метрики оценки для каждой задачи, подчеркивая удобство и гибкость нашего набора данных. Набор данных и соответствующие артефакты доступны по адресу https://datasets.simula.no/kvasir-vqa.
English
We introduce Kvasir-VQA, an extended dataset derived from the HyperKvasir and
Kvasir-Instrument datasets, augmented with question-and-answer annotations to
facilitate advanced machine learning tasks in Gastrointestinal (GI)
diagnostics. This dataset comprises 6,500 annotated images spanning various GI
tract conditions and surgical instruments, and it supports multiple question
types including yes/no, choice, location, and numerical count. The dataset is
intended for applications such as image captioning, Visual Question Answering
(VQA), text-based generation of synthetic medical images, object detection, and
classification. Our experiments demonstrate the dataset's effectiveness in
training models for three selected tasks, showcasing significant applications
in medical image analysis and diagnostics. We also present evaluation metrics
for each task, highlighting the usability and versatility of our dataset. The
dataset and supporting artifacts are available at
https://datasets.simula.no/kvasir-vqa.Summary
AI-Generated Summary