MedBLINK: Esplorazione della percezione di base nei modelli linguistici multimodali per la medicina
MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine
August 4, 2025
Autori: Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna
cs.AI
Abstract
I modelli linguistici multimodali (MLM) mostrano un potenziale promettente per il supporto alle decisioni cliniche e il ragionamento diagnostico, aprendo la prospettiva di un'interpretazione automatizzata end-to-end delle immagini mediche. Tuttavia, i clinici sono estremamente selettivi nell'adozione di strumenti di intelligenza artificiale; un modello che commette errori in compiti percettivi apparentemente semplici, come determinare l'orientamento di un'immagine o identificare se una scansione TC è con mezzo di contrasto, è improbabile che venga adottato per compiti clinici. Presentiamo Medblink, un benchmark progettato per valutare queste capacità percettive nei modelli. Medblink copre otto compiti clinicamente significativi attraverso diverse modalità di imaging e regioni anatomiche, per un totale di 1.429 domande a scelta multipla su 1.605 immagini. Valutiamo 19 MLM all'avanguardia, inclusi modelli generici (GPT4o, Claude 3.5 Sonnet) e specifici per il dominio (Med Flamingo, LLaVA Med, RadFM). Mentre gli annotatori umani raggiungono un'accuratezza del 96,4%, il modello con le migliori prestazioni arriva solo al 65%. Questi risultati dimostrano che gli attuali MLM falliscono spesso nei controlli percettivi di routine, suggerendo la necessità di rafforzare il loro ancoraggio visivo per favorire l'adozione clinica. I dati sono disponibili sulla pagina del progetto.
English
Multimodal language models (MLMs) show promise for clinical decision support
and diagnostic reasoning, raising the prospect of end-to-end automated medical
image interpretation. However, clinicians are highly selective in adopting AI
tools; a model that makes errors on seemingly simple perception tasks such as
determining image orientation or identifying whether a CT scan is
contrast-enhance are unlikely to be adopted for clinical tasks. We introduce
Medblink, a benchmark designed to probe these models for such perceptual
abilities. Medblink spans eight clinically meaningful tasks across multiple
imaging modalities and anatomical regions, totaling 1,429 multiple-choice
questions over 1,605 images. We evaluate 19 state-of-the-art MLMs, including
general purpose (GPT4o, Claude 3.5 Sonnet) and domain specific (Med Flamingo,
LLaVA Med, RadFM) models. While human annotators achieve 96.4% accuracy, the
best-performing model reaches only 65%. These results show that current MLMs
frequently fail at routine perceptual checks, suggesting the need to strengthen
their visual grounding to support clinical adoption. Data is available on our
project page.