ChatPaper.aiChatPaper

Kvasir-VQA-x1: Un Dataset Multimodale per il Ragionamento Medico e un Robust MedVQA nell'Endoscopia Gastrointestinale

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

June 11, 2025
Autori: Sushant Gautam, Michael A. Riegler, Pål Halvorsen
cs.AI

Abstract

Il Medical Visual Question Answering (MedVQA) è un campo promettente per lo sviluppo di sistemi di supporto alle decisioni cliniche, ma i progressi sono spesso limitati dai dataset disponibili, che possono mancare di complessità clinica e diversità visiva. Per colmare queste lacune, introduciamo Kvasir-VQA-x1, un nuovo dataset su larga scala per l'endoscopia gastrointestinale (GI). Il nostro lavoro amplia significativamente il dataset originale Kvasir-VQA, incorporando 159.549 nuove coppie domanda-risposta progettate per testare un ragionamento clinico più approfondito. Abbiamo sviluppato un metodo sistematico utilizzando modelli linguistici di grandi dimensioni per generare queste domande, stratificate per complessità, al fine di valutare meglio le capacità inferenziali di un modello. Per garantire che il nostro dataset prepari i modelli per scenari clinici reali, abbiamo anche introdotto una varietà di aumentazioni visive che mimano comuni artefatti di imaging. Il dataset è strutturato per supportare due principali tracce di valutazione: una per le prestazioni standard di VQA e un'altra per testare la robustezza del modello contro queste perturbazioni visive. Fornendo un benchmark più impegnativo e clinicamente rilevante, Kvasir-VQA-x1 mira ad accelerare lo sviluppo di sistemi AI multimodali più affidabili ed efficaci per l'uso in contesti clinici. Il dataset è completamente accessibile e aderisce ai principi FAIR per i dati, rendendolo una risorsa preziosa per la comunità di ricerca più ampia. Codice e dati: https://github.com/Simula/Kvasir-VQA-x1 e https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
English
Medical Visual Question Answering (MedVQA) is a promising field for developing clinical decision support systems, yet progress is often limited by the available datasets, which can lack clinical complexity and visual diversity. To address these gaps, we introduce Kvasir-VQA-x1, a new, large-scale dataset for gastrointestinal (GI) endoscopy. Our work significantly expands upon the original Kvasir-VQA by incorporating 159,549 new question-answer pairs that are designed to test deeper clinical reasoning. We developed a systematic method using large language models to generate these questions, which are stratified by complexity to better assess a model's inference capabilities. To ensure our dataset prepares models for real-world clinical scenarios, we have also introduced a variety of visual augmentations that mimic common imaging artifacts. The dataset is structured to support two main evaluation tracks: one for standard VQA performance and another to test model robustness against these visual perturbations. By providing a more challenging and clinically relevant benchmark, Kvasir-VQA-x1 aims to accelerate the development of more reliable and effective multimodal AI systems for use in clinical settings. The dataset is fully accessible and adheres to FAIR data principles, making it a valuable resource for the wider research community. Code and data: https://github.com/Simula/Kvasir-VQA-x1 and https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
PDF12June 12, 2025