ChatPaper.aiChatPaper

Kvasir-VQA-x1: Een multimodale dataset voor medisch redeneren en robuuste MedVQA in gastro-intestinale endoscopie

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

June 11, 2025
Auteurs: Sushant Gautam, Michael A. Riegler, Pål Halvorsen
cs.AI

Samenvatting

Medisch Visueel Vraag-Antwoord (MedVQA) is een veelbelovend veld voor de ontwikkeling van klinische beslissingsondersteunende systemen, maar de vooruitgang wordt vaak beperkt door de beschikbare datasets, die klinische complexiteit en visuele diversiteit kunnen missen. Om deze tekortkomingen aan te pakken, introduceren we Kvasir-VQA-x1, een nieuwe, grootschalige dataset voor gastro-intestinale (GI) endoscopie. Ons werk breidt de oorspronkelijke Kvasir-VQA aanzienlijk uit door het toevoegen van 159.549 nieuwe vraag-antwoordparen die zijn ontworpen om dieper klinisch redeneren te testen. We hebben een systematische methode ontwikkeld met behulp van grote taalmodellen om deze vragen te genereren, die zijn gestratificeerd op complexiteit om de inferentiecapaciteiten van een model beter te beoordelen. Om ervoor te zorgen dat onze dataset modellen voorbereidt op realistische klinische scenario's, hebben we ook een verscheidenheid aan visuele augmentaties geïntroduceerd die veelvoorkomende beeldartefacten nabootsen. De dataset is gestructureerd om twee hoofd evaluatietracks te ondersteunen: één voor standaard VQA-prestaties en een andere om de robuustheid van modellen tegen deze visuele verstoringen te testen. Door een uitdagender en klinisch relevanter benchmark te bieden, streeft Kvasir-VQA-x1 ernaar de ontwikkeling van betrouwbaardere en effectievere multimodale AI-systemen voor gebruik in klinische omgevingen te versnellen. De dataset is volledig toegankelijk en voldoet aan de FAIR data-principes, waardoor het een waardevolle bron is voor de bredere onderzoeksgemeenschap. Code en data: https://github.com/Simula/Kvasir-VQA-x1 en https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
English
Medical Visual Question Answering (MedVQA) is a promising field for developing clinical decision support systems, yet progress is often limited by the available datasets, which can lack clinical complexity and visual diversity. To address these gaps, we introduce Kvasir-VQA-x1, a new, large-scale dataset for gastrointestinal (GI) endoscopy. Our work significantly expands upon the original Kvasir-VQA by incorporating 159,549 new question-answer pairs that are designed to test deeper clinical reasoning. We developed a systematic method using large language models to generate these questions, which are stratified by complexity to better assess a model's inference capabilities. To ensure our dataset prepares models for real-world clinical scenarios, we have also introduced a variety of visual augmentations that mimic common imaging artifacts. The dataset is structured to support two main evaluation tracks: one for standard VQA performance and another to test model robustness against these visual perturbations. By providing a more challenging and clinically relevant benchmark, Kvasir-VQA-x1 aims to accelerate the development of more reliable and effective multimodal AI systems for use in clinical settings. The dataset is fully accessible and adheres to FAIR data principles, making it a valuable resource for the wider research community. Code and data: https://github.com/Simula/Kvasir-VQA-x1 and https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
PDF12June 12, 2025