Kvasir-VQA-x1: Ein multimodaler Datensatz für medizinisches Denken und robuste MedVQA in der gastrointestinalen Endoskopie
Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy
June 11, 2025
Autoren: Sushant Gautam, Michael A. Riegler, Pål Halvorsen
cs.AI
Zusammenfassung
Medical Visual Question Answering (MedVQA) ist ein vielversprechendes Feld für die Entwicklung klinischer Entscheidungsunterstützungssysteme, doch der Fortschritt wird oft durch die verfügbaren Datensätze begrenzt, denen es an klinischer Komplexität und visueller Vielfalt mangeln kann. Um diese Lücken zu schließen, stellen wir Kvasir-VQA-x1 vor, einen neuen, groß angelegten Datensatz für die gastrointestinale (GI) Endoskopie. Unsere Arbeit erweitert den ursprünglichen Kvasir-VQA-Datensatz erheblich, indem wir 159.549 neue Frage-Antwort-Paare integrieren, die entwickelt wurden, um tiefergehendes klinisches Denken zu testen. Wir haben eine systematische Methode unter Verwendung großer Sprachmodelle entwickelt, um diese Fragen zu generieren, die nach Komplexität geschichtet sind, um die Inferenzfähigkeiten eines Modells besser bewerten zu können. Um sicherzustellen, dass unser Datensatz Modelle auf reale klinische Szenarien vorbereitet, haben wir auch eine Vielzahl von visuellen Augmentierungen eingeführt, die häufige Bildartefakte nachahmen. Der Datensatz ist so strukturiert, dass er zwei Hauptbewertungstracks unterstützt: einen für die Standard-VQA-Leistung und einen weiteren, um die Robustheit der Modelle gegenüber diesen visuellen Störungen zu testen. Durch die Bereitstellung eines anspruchsvolleren und klinisch relevanteren Benchmarks zielt Kvasir-VQA-x1 darauf ab, die Entwicklung zuverlässigerer und effektiverer multimodaler KI-Systeme für den Einsatz in klinischen Umgebungen zu beschleunigen. Der Datensatz ist vollständig zugänglich und entspricht den FAIR-Datenprinzipien, was ihn zu einer wertvollen Ressource für die breitere Forschungsgemeinschaft macht. Code und Daten: https://github.com/Simula/Kvasir-VQA-x1 und https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
English
Medical Visual Question Answering (MedVQA) is a promising field for
developing clinical decision support systems, yet progress is often limited by
the available datasets, which can lack clinical complexity and visual
diversity. To address these gaps, we introduce Kvasir-VQA-x1, a new,
large-scale dataset for gastrointestinal (GI) endoscopy. Our work significantly
expands upon the original Kvasir-VQA by incorporating 159,549 new
question-answer pairs that are designed to test deeper clinical reasoning. We
developed a systematic method using large language models to generate these
questions, which are stratified by complexity to better assess a model's
inference capabilities. To ensure our dataset prepares models for real-world
clinical scenarios, we have also introduced a variety of visual augmentations
that mimic common imaging artifacts. The dataset is structured to support two
main evaluation tracks: one for standard VQA performance and another to test
model robustness against these visual perturbations. By providing a more
challenging and clinically relevant benchmark, Kvasir-VQA-x1 aims to accelerate
the development of more reliable and effective multimodal AI systems for use in
clinical settings. The dataset is fully accessible and adheres to FAIR data
principles, making it a valuable resource for the wider research community.
Code and data: https://github.com/Simula/Kvasir-VQA-x1 and
https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1