ChatPaper.aiChatPaper

Kvasir-VQA-x1 : Un ensemble de données multimodales pour le raisonnement médical et une MedVQA robuste en endoscopie gastro-intestinale

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

June 11, 2025
Auteurs: Sushant Gautam, Michael A. Riegler, Pål Halvorsen
cs.AI

Résumé

Le domaine du Question-Réponse Visuel Médical (MedVQA) représente un champ prometteur pour le développement de systèmes d’aide à la décision clinique. Cependant, les progrès sont souvent limités par les jeux de données disponibles, qui peuvent manquer de complexité clinique et de diversité visuelle. Pour combler ces lacunes, nous présentons Kvasir-VQA-x1, un nouveau jeu de données à grande échelle dédié à l’endoscopie gastro-intestinale (GI). Notre travail étend considérablement l’original Kvasir-VQA en intégrant 159 549 nouvelles paires question-réponse conçues pour tester un raisonnement clinique plus approfondi. Nous avons développé une méthode systématique utilisant des modèles de langage de grande envergure pour générer ces questions, qui sont stratifiées par complexité afin de mieux évaluer les capacités d’inférence d’un modèle. Pour garantir que notre jeu de données prépare les modèles à des scénarios cliniques réels, nous avons également introduit une variété d’augmentations visuelles qui imitent les artefacts d’imagerie courants. Le jeu de données est structuré pour supporter deux principales pistes d’évaluation : une pour la performance standard en VQA et une autre pour tester la robustesse des modèles face à ces perturbations visuelles. En offrant un benchmark plus exigeant et cliniquement pertinent, Kvasir-VQA-x1 vise à accélérer le développement de systèmes d’IA multimodaux plus fiables et efficaces pour une utilisation en milieu clinique. Le jeu de données est entièrement accessible et respecte les principes FAIR (Findable, Accessible, Interoperable, Reusable), en faisant une ressource précieuse pour la communauté de recherche élargie. Code et données : https://github.com/Simula/Kvasir-VQA-x1 et https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
English
Medical Visual Question Answering (MedVQA) is a promising field for developing clinical decision support systems, yet progress is often limited by the available datasets, which can lack clinical complexity and visual diversity. To address these gaps, we introduce Kvasir-VQA-x1, a new, large-scale dataset for gastrointestinal (GI) endoscopy. Our work significantly expands upon the original Kvasir-VQA by incorporating 159,549 new question-answer pairs that are designed to test deeper clinical reasoning. We developed a systematic method using large language models to generate these questions, which are stratified by complexity to better assess a model's inference capabilities. To ensure our dataset prepares models for real-world clinical scenarios, we have also introduced a variety of visual augmentations that mimic common imaging artifacts. The dataset is structured to support two main evaluation tracks: one for standard VQA performance and another to test model robustness against these visual perturbations. By providing a more challenging and clinically relevant benchmark, Kvasir-VQA-x1 aims to accelerate the development of more reliable and effective multimodal AI systems for use in clinical settings. The dataset is fully accessible and adheres to FAIR data principles, making it a valuable resource for the wider research community. Code and data: https://github.com/Simula/Kvasir-VQA-x1 and https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
PDF12June 12, 2025