ChatPaper.aiChatPaper

Kvasir-VQA: 텍스트-이미지 쌍 GI 트랙 데이터셋

Kvasir-VQA: A Text-Image Pair GI Tract Dataset

September 2, 2024
저자: Sushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler
cs.AI

초록

우리는 위장 내시경 진단 분야에서 고급 기계 학습 작업을 용이하게 하기 위해 질문-답변 주석이 추가된 HyperKvasir 및 Kvasir-Instrument 데이터셋에서 파생된 확장 데이터셋인 Kvasir-VQA를 소개합니다. 본 데이터셋은 다양한 위장관 상태와 수술 도구를 포함한 6,500개의 주석이 달린 이미지로 구성되어 있으며, 예/아니오, 선택, 위치 및 숫자 세기와 같은 다양한 질문 유형을 지원합니다. 본 데이터셋은 이미지 캡션, 시각적 질의 응답 (VQA), 합성 의료 이미지의 텍스트 기반 생성, 물체 감지 및 분류와 같은 응용 프로그램을 위해 고안되었습니다. 우리의 실험은 이 데이터셋이 의료 이미지 분석과 진단 분야에서 중요한 응용 가능성을 보여주는 세 가지 선정된 작업을 위한 모델 학습의 효과를 입증합니다. 또한 각 작업에 대한 평가 지표를 제시하여 데이터셋의 사용성과 다양성을 강조합니다. 데이터셋과 지원 자료는 https://datasets.simula.no/kvasir-vqa에서 제공됩니다.
English
We introduce Kvasir-VQA, an extended dataset derived from the HyperKvasir and Kvasir-Instrument datasets, augmented with question-and-answer annotations to facilitate advanced machine learning tasks in Gastrointestinal (GI) diagnostics. This dataset comprises 6,500 annotated images spanning various GI tract conditions and surgical instruments, and it supports multiple question types including yes/no, choice, location, and numerical count. The dataset is intended for applications such as image captioning, Visual Question Answering (VQA), text-based generation of synthetic medical images, object detection, and classification. Our experiments demonstrate the dataset's effectiveness in training models for three selected tasks, showcasing significant applications in medical image analysis and diagnostics. We also present evaluation metrics for each task, highlighting the usability and versatility of our dataset. The dataset and supporting artifacts are available at https://datasets.simula.no/kvasir-vqa.

Summary

AI-Generated Summary

PDF722November 16, 2024