WorldMedQA-V : un ensemble de données d'examen médical multilingue et multimodal pour l'évaluation des modèles de langage multimodal.
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation
October 16, 2024
Auteurs: João Matos, Shan Chen, Siena Placino, Yingya Li, Juan Carlos Climent Pardo, Daphna Idan, Takeshi Tohyama, David Restrepo, Luis F. Nakayama, Jose M. M. Pascual-Leone, Guergana Savova, Hugo Aerts, Leo A. Celi, A. Ian Wong, Danielle S. Bitterman, Jack Gallifant
cs.AI
Résumé
Les modèles multimodaux de langage/vision (VLM) sont de plus en plus déployés dans les établissements de santé du monde entier, ce qui nécessite des références robustes pour garantir leur sécurité, leur efficacité et leur équité. Les ensembles de données de questions-réponses à choix multiples (QA) dérivés des examens médicaux nationaux ont longtemps servi d'outils d'évaluation précieux, mais les ensembles de données existants sont principalement basés sur du texte uniquement et disponibles dans un sous-ensemble limité de langues et de pays. Pour relever ces défis, nous présentons WorldMedQA-V, un ensemble de données de référence multilingue et multimodal mis à jour, conçu pour évaluer les VLM dans le domaine de la santé. WorldMedQA-V comprend 568 questions-réponses à choix multiples étiquetées associées à 568 images médicales provenant de quatre pays (Brésil, Israël, Japon et Espagne), couvrant les langues originales et les traductions anglaises validées par des cliniciens natifs, respectivement. Les performances de base pour les modèles courants à code source ouvert et fermé sont fournies dans la langue locale et les traductions en anglais, avec ou sans images fournies au modèle. L'objectif de l'ensemble de données de référence WorldMedQA-V est de mieux adapter les systèmes d'IA aux environnements de santé divers dans lesquels ils sont déployés, favorisant des applications plus équitables, efficaces et représentatives.
English
Multimodal/vision language models (VLMs) are increasingly being deployed in
healthcare settings worldwide, necessitating robust benchmarks to ensure their
safety, efficacy, and fairness. Multiple-choice question and answer (QA)
datasets derived from national medical examinations have long served as
valuable evaluation tools, but existing datasets are largely text-only and
available in a limited subset of languages and countries. To address these
challenges, we present WorldMedQA-V, an updated multilingual, multimodal
benchmarking dataset designed to evaluate VLMs in healthcare. WorldMedQA-V
includes 568 labeled multiple-choice QAs paired with 568 medical images from
four countries (Brazil, Israel, Japan, and Spain), covering original languages
and validated English translations by native clinicians, respectively. Baseline
performance for common open- and closed-source models are provided in the local
language and English translations, and with and without images provided to the
model. The WorldMedQA-V benchmark aims to better match AI systems to the
diverse healthcare environments in which they are deployed, fostering more
equitable, effective, and representative applications.Summary
AI-Generated Summary