Kvasir-VQA-x1: 위장 내시경에서의 의학적 추론과 강건한 MedVQA를 위한 다중모달 데이터셋
Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy
June 11, 2025
저자: Sushant Gautam, Michael A. Riegler, Pål Halvorsen
cs.AI
초록
의료 시각 질의응답(MedVQA)은 임상 의사결정 지원 시스템 개발을 위한 유망한 분야이지만, 종종 이용 가능한 데이터셋의 한계로 인해 진전이 제한됩니다. 이러한 데이터셋은 임상적 복잡성과 시각적 다양성이 부족할 수 있습니다. 이러한 격차를 해결하기 위해, 우리는 위장관(GI) 내시경을 위한 새로운 대규모 데이터셋인 Kvasir-VQA-x1을 소개합니다. 우리의 작업은 기존 Kvasir-VQA를 크게 확장하여, 더 깊은 임상적 사고를 테스트하도록 설계된 159,549개의 새로운 질문-답변 쌍을 포함시켰습니다. 우리는 대규모 언어 모델을 사용하여 이러한 질문을 생성하는 체계적인 방법을 개발했으며, 이 질문들은 복잡성에 따라 계층화되어 모델의 추론 능력을 더 잘 평가할 수 있도록 했습니다. 우리의 데이터셋이 실제 임상 시나리오에 대비할 수 있도록, 일반적인 영상 아티팩트를 모방한 다양한 시각적 증강 기법도 도입했습니다. 이 데이터셋은 표준 VQA 성능을 평가하기 위한 트랙과 이러한 시각적 교란에 대한 모델의 견고성을 테스트하기 위한 트랙, 두 가지 주요 평가 트랙을 지원하도록 구조화되었습니다. Kvasir-VQA-x1은 더 도전적이고 임상적으로 관련성이 높은 벤치마크를 제공함으로써, 임상 환경에서 사용하기 위한 더 신뢰할 수 있고 효과적인 다중모달 AI 시스템의 개발을 가속화하고자 합니다. 이 데이터셋은 완전히 접근 가능하며 FAIR 데이터 원칙을 준수하여, 더 넓은 연구 커뮤니티를 위한 귀중한 자원이 될 것입니다. 코드와 데이터: https://github.com/Simula/Kvasir-VQA-x1 및 https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
English
Medical Visual Question Answering (MedVQA) is a promising field for
developing clinical decision support systems, yet progress is often limited by
the available datasets, which can lack clinical complexity and visual
diversity. To address these gaps, we introduce Kvasir-VQA-x1, a new,
large-scale dataset for gastrointestinal (GI) endoscopy. Our work significantly
expands upon the original Kvasir-VQA by incorporating 159,549 new
question-answer pairs that are designed to test deeper clinical reasoning. We
developed a systematic method using large language models to generate these
questions, which are stratified by complexity to better assess a model's
inference capabilities. To ensure our dataset prepares models for real-world
clinical scenarios, we have also introduced a variety of visual augmentations
that mimic common imaging artifacts. The dataset is structured to support two
main evaluation tracks: one for standard VQA performance and another to test
model robustness against these visual perturbations. By providing a more
challenging and clinically relevant benchmark, Kvasir-VQA-x1 aims to accelerate
the development of more reliable and effective multimodal AI systems for use in
clinical settings. The dataset is fully accessible and adheres to FAIR data
principles, making it a valuable resource for the wider research community.
Code and data: https://github.com/Simula/Kvasir-VQA-x1 and
https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1