MedBLINK: Onderzoek naar Basale Waarneming in Multimodale Taalmodellen voor Geneeskunde
MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine
August 4, 2025
Auteurs: Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna
cs.AI
Samenvatting
Multimodale taalmodellen (MLM's) tonen potentieel voor klinische beslissingsondersteuning en diagnostisch redeneren, wat het vooruitzicht op end-to-end geautomatiseerde interpretatie van medische beelden vergroot. Klinici zijn echter zeer selectief in het adopteren van AI-tools; een model dat fouten maakt op ogenschijnlijk eenvoudige perceptietaken, zoals het bepalen van de beeldoriëntatie of het identificeren of een CT-scan contrastversterkt is, zal waarschijnlijk niet worden geadopteerd voor klinische taken. Wij introduceren Medblink, een benchmark ontworpen om deze modellen te testen op dergelijke perceptuele vaardigheden. Medblink omvat acht klinisch relevante taken over meerdere beeldvormingsmodaliteiten en anatomische regio's, met in totaal 1.429 meerkeuzevragen over 1.605 afbeeldingen. We evalueren 19 state-of-the-art MLM's, waaronder algemene (GPT4o, Claude 3.5 Sonnet) en domeinspecifieke (Med Flamingo, LLaVA Med, RadFM) modellen. Terwijl menselijke annotators een nauwkeurigheid van 96,4% behalen, bereikt het best presterende model slechts 65%. Deze resultaten laten zien dat huidige MLM's vaak falen bij routinematige perceptuele controles, wat de noodzaak suggereert om hun visuele verankering te versterken om klinische adoptie te ondersteunen. De gegevens zijn beschikbaar op onze projectpagina.
English
Multimodal language models (MLMs) show promise for clinical decision support
and diagnostic reasoning, raising the prospect of end-to-end automated medical
image interpretation. However, clinicians are highly selective in adopting AI
tools; a model that makes errors on seemingly simple perception tasks such as
determining image orientation or identifying whether a CT scan is
contrast-enhance are unlikely to be adopted for clinical tasks. We introduce
Medblink, a benchmark designed to probe these models for such perceptual
abilities. Medblink spans eight clinically meaningful tasks across multiple
imaging modalities and anatomical regions, totaling 1,429 multiple-choice
questions over 1,605 images. We evaluate 19 state-of-the-art MLMs, including
general purpose (GPT4o, Claude 3.5 Sonnet) and domain specific (Med Flamingo,
LLaVA Med, RadFM) models. While human annotators achieve 96.4% accuracy, the
best-performing model reaches only 65%. These results show that current MLMs
frequently fail at routine perceptual checks, suggesting the need to strengthen
their visual grounding to support clinical adoption. Data is available on our
project page.