ChatPaper.aiChatPaper

Kvasir-VQA-x1: Un conjunto de datos multimodal para razonamiento médico y MedVQA robusto en endoscopia gastrointestinal

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

June 11, 2025
Autores: Sushant Gautam, Michael A. Riegler, Pål Halvorsen
cs.AI

Resumen

La Respuesta Visual a Preguntas Médicas (MedVQA, por sus siglas en inglés) es un campo prometedor para el desarrollo de sistemas de apoyo a la toma de decisiones clínicas, aunque el progreso suele verse limitado por los conjuntos de datos disponibles, que pueden carecer de complejidad clínica y diversidad visual. Para abordar estas brechas, presentamos Kvasir-VQA-x1, un nuevo conjunto de datos a gran escala para endoscopia gastrointestinal (GI). Nuestro trabajo amplía significativamente el conjunto original Kvasir-VQA al incorporar 159,549 nuevos pares de preguntas-respuestas diseñados para evaluar un razonamiento clínico más profundo. Desarrollamos un método sistemático utilizando modelos de lenguaje de gran escala para generar estas preguntas, las cuales están estratificadas por complejidad para evaluar mejor las capacidades de inferencia de un modelo. Para asegurar que nuestro conjunto de datos prepare a los modelos para escenarios clínicos del mundo real, también hemos introducido una variedad de aumentos visuales que imitan artefactos comunes en las imágenes. El conjunto de datos está estructurado para apoyar dos evaluaciones principales: una para el rendimiento estándar de VQA y otra para probar la robustez del modelo frente a estas perturbaciones visuales. Al proporcionar un punto de referencia más desafiante y clínicamente relevante, Kvasir-VQA-x1 tiene como objetivo acelerar el desarrollo de sistemas de IA multimodal más confiables y efectivos para su uso en entornos clínicos. El conjunto de datos es completamente accesible y se adhiere a los principios FAIR de datos, lo que lo convierte en un recurso valioso para la comunidad investigadora en general. Código y datos: https://github.com/Simula/Kvasir-VQA-x1 y https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
English
Medical Visual Question Answering (MedVQA) is a promising field for developing clinical decision support systems, yet progress is often limited by the available datasets, which can lack clinical complexity and visual diversity. To address these gaps, we introduce Kvasir-VQA-x1, a new, large-scale dataset for gastrointestinal (GI) endoscopy. Our work significantly expands upon the original Kvasir-VQA by incorporating 159,549 new question-answer pairs that are designed to test deeper clinical reasoning. We developed a systematic method using large language models to generate these questions, which are stratified by complexity to better assess a model's inference capabilities. To ensure our dataset prepares models for real-world clinical scenarios, we have also introduced a variety of visual augmentations that mimic common imaging artifacts. The dataset is structured to support two main evaluation tracks: one for standard VQA performance and another to test model robustness against these visual perturbations. By providing a more challenging and clinically relevant benchmark, Kvasir-VQA-x1 aims to accelerate the development of more reliable and effective multimodal AI systems for use in clinical settings. The dataset is fully accessible and adheres to FAIR data principles, making it a valuable resource for the wider research community. Code and data: https://github.com/Simula/Kvasir-VQA-x1 and https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
PDF12June 12, 2025