MedBLINK: Исследование базового восприятия в мультимодальных языковых моделях для медицины
MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine
August 4, 2025
Авторы: Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna
cs.AI
Аннотация
Мультимодальные языковые модели (MLMs) демонстрируют потенциал для поддержки клинических решений и диагностического анализа, открывая перспективы для полностью автоматизированной интерпретации медицинских изображений. Однако клиницисты крайне избирательны в использовании инструментов искусственного интеллекта; модель, которая допускает ошибки в, казалось бы, простых задачах восприятия, таких как определение ориентации изображения или выявление наличия контрастного усиления на КТ-снимках, вряд ли будет принята для клинических задач. Мы представляем Medblink — эталонный тест, разработанный для оценки таких перцептивных способностей моделей. Medblink охватывает восемь клинически значимых задач, охватывающих различные методы визуализации и анатомические области, и включает 1 429 вопросов с множественным выбором на основе 1 605 изображений. Мы оценили 19 современных MLMs, включая модели общего назначения (GPT4o, Claude 3.5 Sonnet) и специализированные (Med Flamingo, LLaVA Med, RadFM). В то время как аннотаторы-люди достигают точности 96,4%, лучшая модель демонстрирует точность лишь 65%. Эти результаты показывают, что современные MLMs часто не справляются с рутинными проверками восприятия, что указывает на необходимость усиления их визуальной основы для поддержки клинического внедрения. Данные доступны на странице нашего проекта.
English
Multimodal language models (MLMs) show promise for clinical decision support
and diagnostic reasoning, raising the prospect of end-to-end automated medical
image interpretation. However, clinicians are highly selective in adopting AI
tools; a model that makes errors on seemingly simple perception tasks such as
determining image orientation or identifying whether a CT scan is
contrast-enhance are unlikely to be adopted for clinical tasks. We introduce
Medblink, a benchmark designed to probe these models for such perceptual
abilities. Medblink spans eight clinically meaningful tasks across multiple
imaging modalities and anatomical regions, totaling 1,429 multiple-choice
questions over 1,605 images. We evaluate 19 state-of-the-art MLMs, including
general purpose (GPT4o, Claude 3.5 Sonnet) and domain specific (Med Flamingo,
LLaVA Med, RadFM) models. While human annotators achieve 96.4% accuracy, the
best-performing model reaches only 65%. These results show that current MLMs
frequently fail at routine perceptual checks, suggesting the need to strengthen
their visual grounding to support clinical adoption. Data is available on our
project page.