MedBLINK : Exploration de la perception de base dans les modèles de langage multimodaux pour la médecine
MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine
August 4, 2025
papers.authors: Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna
cs.AI
papers.abstract
Les modèles de langage multimodaux (MLMs) montrent un potentiel pour le soutien à la décision clinique et le raisonnement diagnostique, ouvrant la perspective d'une interprétation automatisée des images médicales de bout en bout. Cependant, les cliniciens sont très sélectifs dans l'adoption des outils d'IA ; un modèle qui commet des erreurs sur des tâches de perception apparemment simples, comme déterminer l'orientation d'une image ou identifier si un scanner est avec produit de contraste, a peu de chances d'être adopté pour des tâches cliniques. Nous présentons Medblink, un benchmark conçu pour évaluer ces modèles sur de telles capacités perceptuelles. Medblink couvre huit tâches cliniquement significatives à travers plusieurs modalités d'imagerie et régions anatomiques, totalisant 1 429 questions à choix multiples sur 1 605 images. Nous évaluons 19 MLMs de pointe, incluant des modèles à usage général (GPT4o, Claude 3.5 Sonnet) et spécialisés (Med Flamingo, LLaVA Med, RadFM). Alors que les annotateurs humains atteignent une précision de 96,4 %, le meilleur modèle n'atteint que 65 %. Ces résultats montrent que les MLMs actuels échouent fréquemment sur des vérifications perceptuelles de routine, suggérant la nécessité de renforcer leur ancrage visuel pour favoriser leur adoption clinique. Les données sont disponibles sur notre page de projet.
English
Multimodal language models (MLMs) show promise for clinical decision support
and diagnostic reasoning, raising the prospect of end-to-end automated medical
image interpretation. However, clinicians are highly selective in adopting AI
tools; a model that makes errors on seemingly simple perception tasks such as
determining image orientation or identifying whether a CT scan is
contrast-enhance are unlikely to be adopted for clinical tasks. We introduce
Medblink, a benchmark designed to probe these models for such perceptual
abilities. Medblink spans eight clinically meaningful tasks across multiple
imaging modalities and anatomical regions, totaling 1,429 multiple-choice
questions over 1,605 images. We evaluate 19 state-of-the-art MLMs, including
general purpose (GPT4o, Claude 3.5 Sonnet) and domain specific (Med Flamingo,
LLaVA Med, RadFM) models. While human annotators achieve 96.4% accuracy, the
best-performing model reaches only 65%. These results show that current MLMs
frequently fail at routine perceptual checks, suggesting the need to strengthen
their visual grounding to support clinical adoption. Data is available on our
project page.