Kvasir-VQA: テキスト-画像ペアGIトラクトデータセット
Kvasir-VQA: A Text-Image Pair GI Tract Dataset
September 2, 2024
著者: Sushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler
cs.AI
要旨
私たちは、胃腸(GI)診断における高度な機械学習タスクを容易にするために、HyperKvasirおよびKvasir-Instrumentデータセットから派生した拡張データセットであるKvasir-VQAを紹介します。このデータセットには、さまざまなGIトラクトの状態や外科器具を含む6,500枚の注釈付き画像が含まれており、yes/no、選択肢、位置、数値カウントなどの複数の質問タイプをサポートしています。このデータセットは、画像キャプショニング、Visual Question Answering(VQA)、合成医用画像のテキストベース生成、物体検出、および分類などのアプリケーションを想定しています。私たちの実験は、3つの選択されたタスクのモデルトレーニングにおけるデータセットの効果を示し、医用画像解析と診断における重要な応用を示しています。また、各タスクの評価メトリクスを提示し、当該データセットの使いやすさと汎用性を強調しています。データセットと関連資料は、https://datasets.simula.no/kvasir-vqa で入手可能です。
English
We introduce Kvasir-VQA, an extended dataset derived from the HyperKvasir and
Kvasir-Instrument datasets, augmented with question-and-answer annotations to
facilitate advanced machine learning tasks in Gastrointestinal (GI)
diagnostics. This dataset comprises 6,500 annotated images spanning various GI
tract conditions and surgical instruments, and it supports multiple question
types including yes/no, choice, location, and numerical count. The dataset is
intended for applications such as image captioning, Visual Question Answering
(VQA), text-based generation of synthetic medical images, object detection, and
classification. Our experiments demonstrate the dataset's effectiveness in
training models for three selected tasks, showcasing significant applications
in medical image analysis and diagnostics. We also present evaluation metrics
for each task, highlighting the usability and versatility of our dataset. The
dataset and supporting artifacts are available at
https://datasets.simula.no/kvasir-vqa.Summary
AI-Generated Summary