ChatPaper.aiChatPaper

Kvasir-VQA-x1: Um Conjunto de Dados Multimodal para Raciocínio Médico e MedVQA Robusto em Endoscopia Gastrointestinal

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

June 11, 2025
Autores: Sushant Gautam, Michael A. Riegler, Pål Halvorsen
cs.AI

Resumo

O Visual Question Answering Médico (MedVQA) é um campo promissor para o desenvolvimento de sistemas de apoio à decisão clínica, mas o progresso é frequentemente limitado pelos conjuntos de dados disponíveis, que podem carecer de complexidade clínica e diversidade visual. Para abordar essas lacunas, introduzimos o Kvasir-VQA-x1, um novo conjunto de dados em larga escala para endoscopia gastrointestinal (GI). Nosso trabalho expande significativamente o Kvasir-VQA original, incorporando 159.549 novos pares de perguntas e respostas projetados para testar raciocínios clínicos mais profundos. Desenvolvemos um método sistemático utilizando modelos de linguagem de grande escala para gerar essas perguntas, que são estratificadas por complexidade para melhor avaliar as capacidades de inferência de um modelo. Para garantir que nosso conjunto de dados prepare os modelos para cenários clínicos do mundo real, também introduzimos uma variedade de aumentos visuais que simulam artefatos comuns de imagem. O conjunto de dados é estruturado para suportar duas principais trilhas de avaliação: uma para o desempenho padrão de VQA e outra para testar a robustez do modelo contra essas perturbações visuais. Ao fornecer um benchmark mais desafiador e clinicamente relevante, o Kvasir-VQA-x1 visa acelerar o desenvolvimento de sistemas de IA multimodal mais confiáveis e eficazes para uso em ambientes clínicos. O conjunto de dados é totalmente acessível e adere aos princípios de dados FAIR, tornando-o um recurso valioso para a comunidade de pesquisa em geral. Código e dados: https://github.com/Simula/Kvasir-VQA-x1 e https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
English
Medical Visual Question Answering (MedVQA) is a promising field for developing clinical decision support systems, yet progress is often limited by the available datasets, which can lack clinical complexity and visual diversity. To address these gaps, we introduce Kvasir-VQA-x1, a new, large-scale dataset for gastrointestinal (GI) endoscopy. Our work significantly expands upon the original Kvasir-VQA by incorporating 159,549 new question-answer pairs that are designed to test deeper clinical reasoning. We developed a systematic method using large language models to generate these questions, which are stratified by complexity to better assess a model's inference capabilities. To ensure our dataset prepares models for real-world clinical scenarios, we have also introduced a variety of visual augmentations that mimic common imaging artifacts. The dataset is structured to support two main evaluation tracks: one for standard VQA performance and another to test model robustness against these visual perturbations. By providing a more challenging and clinically relevant benchmark, Kvasir-VQA-x1 aims to accelerate the development of more reliable and effective multimodal AI systems for use in clinical settings. The dataset is fully accessible and adheres to FAIR data principles, making it a valuable resource for the wider research community. Code and data: https://github.com/Simula/Kvasir-VQA-x1 and https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
PDF12June 12, 2025