MedBLINK: 医療分野におけるマルチモーダル言語モデルの基本的知覚能力の探求
MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine
August 4, 2025
著者: Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna
cs.AI
要旨
マルチモーダル言語モデル(MLM)は、臨床意思決定支援や診断推論において有望であり、エンドツーエンドの自動医療画像解釈の可能性を示しています。しかし、臨床医はAIツールの採用に非常に慎重であり、画像の向きを判断するやCTスキャンが造影剤を使用しているかどうかを識別するといった一見単純な知覚タスクで誤りを犯すモデルは、臨床タスクに採用される可能性が低いです。本研究では、こうした知覚能力を探るためのベンチマーク「Medblink」を紹介します。Medblinkは、複数の画像モダリティと解剖学的領域にわたる8つの臨床的に意味のあるタスクをカバーし、1,605枚の画像に対して1,429の多肢選択問題を提供します。我々は、汎用モデル(GPT4o、Claude 3.5 Sonnet)やドメイン特化モデル(Med Flamingo、LLaVA Med、RadFM)を含む19の最先端MLMを評価しました。人間のアノテーターは96.4%の精度を達成する一方で、最高性能のモデルはわずか65%に留まりました。これらの結果は、現在のMLMが日常的な知覚チェックに頻繁に失敗することを示しており、臨床採用を支援するために視覚的基盤を強化する必要性を示唆しています。データはプロジェクトページで公開されています。
English
Multimodal language models (MLMs) show promise for clinical decision support
and diagnostic reasoning, raising the prospect of end-to-end automated medical
image interpretation. However, clinicians are highly selective in adopting AI
tools; a model that makes errors on seemingly simple perception tasks such as
determining image orientation or identifying whether a CT scan is
contrast-enhance are unlikely to be adopted for clinical tasks. We introduce
Medblink, a benchmark designed to probe these models for such perceptual
abilities. Medblink spans eight clinically meaningful tasks across multiple
imaging modalities and anatomical regions, totaling 1,429 multiple-choice
questions over 1,605 images. We evaluate 19 state-of-the-art MLMs, including
general purpose (GPT4o, Claude 3.5 Sonnet) and domain specific (Med Flamingo,
LLaVA Med, RadFM) models. While human annotators achieve 96.4% accuracy, the
best-performing model reaches only 65%. These results show that current MLMs
frequently fail at routine perceptual checks, suggesting the need to strengthen
their visual grounding to support clinical adoption. Data is available on our
project page.