ChatPaper.aiChatPaper

Kvasir-VQA-x1: Мультимодальный набор данных для медицинского анализа и устойчивого MedVQA в гастроинтестинальной эндоскопии

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

June 11, 2025
Авторы: Sushant Gautam, Michael A. Riegler, Pål Halvorsen
cs.AI

Аннотация

Медицинское визуальное вопросно-ответное взаимодействие (MedVQA) представляет собой перспективное направление для разработки систем поддержки принятия клинических решений, однако прогресс в этой области часто ограничивается доступными наборами данных, которые могут не обладать достаточной клинической сложностью и визуальным разнообразием. Для устранения этих пробелов мы представляем Kvasir-VQA-x1 — новый крупномасштабный набор данных для гастроинтестинальной (ЖКТ) эндоскопии. Наша работа существенно расширяет оригинальный Kvasir-VQA, включая 159 549 новых пар вопросов и ответов, разработанных для проверки более глубокого клинического мышления. Мы разработали систематический метод с использованием больших языковых моделей для генерации этих вопросов, которые стратифицированы по сложности, чтобы лучше оценить способности модели к логическому выводу. Чтобы обеспечить подготовку моделей к реальным клиническим сценариям, мы также внедрили разнообразные визуальные аугментации, имитирующие распространенные артефакты изображений. Набор данных структурирован для поддержки двух основных оценочных треков: один для стандартной производительности VQA и другой для проверки устойчивости модели к этим визуальным искажениям. Предоставляя более сложный и клинически значимый эталон, Kvasir-VQA-x1 стремится ускорить разработку более надежных и эффективных мультимодальных систем искусственного интеллекта для использования в клинической практике. Набор данных полностью доступен и соответствует принципам FAIR, что делает его ценным ресурсом для широкого исследовательского сообщества. Код и данные доступны по ссылкам: https://github.com/Simula/Kvasir-VQA-x1 и https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
English
Medical Visual Question Answering (MedVQA) is a promising field for developing clinical decision support systems, yet progress is often limited by the available datasets, which can lack clinical complexity and visual diversity. To address these gaps, we introduce Kvasir-VQA-x1, a new, large-scale dataset for gastrointestinal (GI) endoscopy. Our work significantly expands upon the original Kvasir-VQA by incorporating 159,549 new question-answer pairs that are designed to test deeper clinical reasoning. We developed a systematic method using large language models to generate these questions, which are stratified by complexity to better assess a model's inference capabilities. To ensure our dataset prepares models for real-world clinical scenarios, we have also introduced a variety of visual augmentations that mimic common imaging artifacts. The dataset is structured to support two main evaluation tracks: one for standard VQA performance and another to test model robustness against these visual perturbations. By providing a more challenging and clinically relevant benchmark, Kvasir-VQA-x1 aims to accelerate the development of more reliable and effective multimodal AI systems for use in clinical settings. The dataset is fully accessible and adheres to FAIR data principles, making it a valuable resource for the wider research community. Code and data: https://github.com/Simula/Kvasir-VQA-x1 and https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
PDF12June 12, 2025