ChatPaper.aiChatPaper

WorldMedQA-V: un conjunto de datos de examen médico multilingüe y multimodal para la evaluación de modelos de lenguaje multimodal.

WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation

October 16, 2024
Autores: João Matos, Shan Chen, Siena Placino, Yingya Li, Juan Carlos Climent Pardo, Daphna Idan, Takeshi Tohyama, David Restrepo, Luis F. Nakayama, Jose M. M. Pascual-Leone, Guergana Savova, Hugo Aerts, Leo A. Celi, A. Ian Wong, Danielle S. Bitterman, Jack Gallifant
cs.AI

Resumen

Los modelos de lenguaje visual/multimodal (VLMs) se están implementando cada vez más en entornos de atención médica en todo el mundo, lo que hace necesario contar con referencias sólidas para garantizar su seguridad, eficacia y equidad. Los conjuntos de datos de preguntas y respuestas de opción múltiple (QA) derivados de exámenes médicos nacionales han sido durante mucho tiempo herramientas valiosas de evaluación, pero los conjuntos de datos existentes son en su mayoría solo de texto y están disponibles en un conjunto limitado de idiomas y países. Para abordar estos desafíos, presentamos WorldMedQA-V, un conjunto de datos de referencia multilingüe y multimodal actualizado diseñado para evaluar VLMs en el ámbito de la salud. WorldMedQA-V incluye 568 preguntas y respuestas de opción múltiple etiquetadas emparejadas con 568 imágenes médicas de cuatro países (Brasil, Israel, Japón y España), cubriendo los idiomas originales y traducciones al inglés validadas por médicos nativos, respectivamente. Se proporciona el rendimiento base para modelos comunes de código abierto y cerrado en el idioma local y en traducciones al inglés, con y sin imágenes proporcionadas al modelo. El objetivo del conjunto de datos de referencia WorldMedQA-V es lograr una mejor adaptación de los sistemas de IA a los diversos entornos de atención médica en los que se implementan, fomentando aplicaciones más equitativas, efectivas y representativas.
English
Multimodal/vision language models (VLMs) are increasingly being deployed in healthcare settings worldwide, necessitating robust benchmarks to ensure their safety, efficacy, and fairness. Multiple-choice question and answer (QA) datasets derived from national medical examinations have long served as valuable evaluation tools, but existing datasets are largely text-only and available in a limited subset of languages and countries. To address these challenges, we present WorldMedQA-V, an updated multilingual, multimodal benchmarking dataset designed to evaluate VLMs in healthcare. WorldMedQA-V includes 568 labeled multiple-choice QAs paired with 568 medical images from four countries (Brazil, Israel, Japan, and Spain), covering original languages and validated English translations by native clinicians, respectively. Baseline performance for common open- and closed-source models are provided in the local language and English translations, and with and without images provided to the model. The WorldMedQA-V benchmark aims to better match AI systems to the diverse healthcare environments in which they are deployed, fostering more equitable, effective, and representative applications.

Summary

AI-Generated Summary

PDF52November 16, 2024