WorldMedQA-V : un ensemble de données d'examen médical multilingue et multimodal pour l'évaluation des modèles de langage multimodal.

Résumé

Les modèles multimodaux de langage/vision (VLM) sont de plus en plus déployés dans les établissements de santé du monde entier, ce qui nécessite des références robustes pour garantir leur sécurité, leur efficacité et leur équité. Les ensembles de données de questions-réponses à choix multiples (QA) dérivés des examens médicaux nationaux ont longtemps servi d'outils d'évaluation précieux, mais les ensembles de données existants sont principalement basés sur du texte uniquement et disponibles dans un sous-ensemble limité de langues et de pays. Pour relever ces défis, nous présentons WorldMedQA-V, un ensemble de données de référence multilingue et multimodal mis à jour, conçu pour évaluer les VLM dans le domaine de la santé. WorldMedQA-V comprend 568 questions-réponses à choix multiples étiquetées associées à 568 images médicales provenant de quatre pays (Brésil, Israël, Japon et Espagne), couvrant les langues originales et les traductions anglaises validées par des cliniciens natifs, respectivement. Les performances de base pour les modèles courants à code source ouvert et fermé sont fournies dans la langue locale et les traductions en anglais, avec ou sans images fournies au modèle. L'objectif de l'ensemble de données de référence WorldMedQA-V est de mieux adapter les systèmes d'IA aux environnements de santé divers dans lesquels ils sont déployés, favorisant des applications plus équitables, efficaces et représentatives.

English

Multimodal/vision language models (VLMs) are increasingly being deployed in healthcare settings worldwide, necessitating robust benchmarks to ensure their safety, efficacy, and fairness. Multiple-choice question and answer (QA) datasets derived from national medical examinations have long served as valuable evaluation tools, but existing datasets are largely text-only and available in a limited subset of languages and countries. To address these challenges, we present WorldMedQA-V, an updated multilingual, multimodal benchmarking dataset designed to evaluate VLMs in healthcare. WorldMedQA-V includes 568 labeled multiple-choice QAs paired with 568 medical images from four countries (Brazil, Israel, Japan, and Spain), covering original languages and validated English translations by native clinicians, respectively. Baseline performance for common open- and closed-source models are provided in the local language and English translations, and with and without images provided to the model. The WorldMedQA-V benchmark aims to better match AI systems to the diverse healthcare environments in which they are deployed, fostering more equitable, effective, and representative applications.