MedBLINK: Untersuchung der grundlegenden Wahrnehmung in multimodalen Sprachmodellen für die Medizin
MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine
August 4, 2025
papers.authors: Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna
cs.AI
papers.abstract
Multimodale Sprachmodelle (MLMs) zeigen Potenzial für die klinische Entscheidungsunterstützung und diagnostische Argumentation, was die Aussicht auf eine end-to-end automatisierte medizinische Bildinterpretation eröffnet. Kliniker sind jedoch sehr selektiv bei der Einführung von KI-Tools; ein Modell, das Fehler bei scheinbar einfachen Wahrnehmungsaufgaben wie der Bestimmung der Bildausrichtung oder der Identifizierung, ob ein CT-Scan kontrastverstärkt ist, macht, wird voraussichtlich nicht für klinische Aufgaben übernommen. Wir stellen Medblink vor, einen Benchmark, der entwickelt wurde, um diese Modelle auf solche Wahrnehmungsfähigkeiten zu testen. Medblink umfasst acht klinisch relevante Aufgaben über mehrere Bildgebungsmodalitäten und anatomische Regionen hinweg, mit insgesamt 1.429 Multiple-Choice-Fragen zu 1.605 Bildern. Wir evaluieren 19 state-of-the-art MLMs, darunter allgemeine Modelle (GPT4o, Claude 3.5 Sonnet) und domänenspezifische Modelle (Med Flamingo, LLaVA Med, RadFM). Während menschliche Annotatoren eine Genauigkeit von 96,4 % erreichen, kommt das leistungsstärkste Modell nur auf 65 %. Diese Ergebnisse zeigen, dass aktuelle MLMs häufig bei routinemäßigen Wahrnehmungsprüfungen versagen, was die Notwendigkeit unterstreicht, ihre visuelle Verankerung zu stärken, um die klinische Einführung zu unterstützen. Die Daten sind auf unserer Projektseite verfügbar.
English
Multimodal language models (MLMs) show promise for clinical decision support
and diagnostic reasoning, raising the prospect of end-to-end automated medical
image interpretation. However, clinicians are highly selective in adopting AI
tools; a model that makes errors on seemingly simple perception tasks such as
determining image orientation or identifying whether a CT scan is
contrast-enhance are unlikely to be adopted for clinical tasks. We introduce
Medblink, a benchmark designed to probe these models for such perceptual
abilities. Medblink spans eight clinically meaningful tasks across multiple
imaging modalities and anatomical regions, totaling 1,429 multiple-choice
questions over 1,605 images. We evaluate 19 state-of-the-art MLMs, including
general purpose (GPT4o, Claude 3.5 Sonnet) and domain specific (Med Flamingo,
LLaVA Med, RadFM) models. While human annotators achieve 96.4% accuracy, the
best-performing model reaches only 65%. These results show that current MLMs
frequently fail at routine perceptual checks, suggesting the need to strengthen
their visual grounding to support clinical adoption. Data is available on our
project page.