MedBLINK: Investigando a Percepção Básica em Modelos de Linguagem Multimodais para Medicina
MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine
August 4, 2025
Autores: Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna
cs.AI
Resumo
Modelos de linguagem multimodal (MLMs) mostram potencial para suporte à decisão clínica e raciocínio diagnóstico, abrindo perspectivas para a interpretação automatizada de imagens médicas de ponta a ponta. No entanto, os clínicos são altamente seletivos na adoção de ferramentas de IA; um modelo que comete erros em tarefas perceptivas aparentemente simples, como determinar a orientação de uma imagem ou identificar se uma tomografia computadorizada é contrastada, dificilmente será adotado para tarefas clínicas. Apresentamos o Medblink, um benchmark projetado para avaliar esses modelos em relação a tais habilidades perceptivas. O Medblink abrange oito tarefas clinicamente relevantes em múltiplas modalidades de imagem e regiões anatômicas, totalizando 1.429 questões de múltipla escolha sobre 1.605 imagens. Avaliamos 19 MLMs de ponta, incluindo modelos de propósito geral (GPT4o, Claude 3.5 Sonnet) e específicos para o domínio (Med Flamingo, LLaVA Med, RadFM). Enquanto anotadores humanos alcançam 96,4% de precisão, o modelo com melhor desempenho atinge apenas 65%. Esses resultados mostram que os MLMs atuais frequentemente falham em verificações perceptivas rotineiras, sugerindo a necessidade de fortalecer sua fundamentação visual para apoiar a adoção clínica. Os dados estão disponíveis na página do nosso projeto.
English
Multimodal language models (MLMs) show promise for clinical decision support
and diagnostic reasoning, raising the prospect of end-to-end automated medical
image interpretation. However, clinicians are highly selective in adopting AI
tools; a model that makes errors on seemingly simple perception tasks such as
determining image orientation or identifying whether a CT scan is
contrast-enhance are unlikely to be adopted for clinical tasks. We introduce
Medblink, a benchmark designed to probe these models for such perceptual
abilities. Medblink spans eight clinically meaningful tasks across multiple
imaging modalities and anatomical regions, totaling 1,429 multiple-choice
questions over 1,605 images. We evaluate 19 state-of-the-art MLMs, including
general purpose (GPT4o, Claude 3.5 Sonnet) and domain specific (Med Flamingo,
LLaVA Med, RadFM) models. While human annotators achieve 96.4% accuracy, the
best-performing model reaches only 65%. These results show that current MLMs
frequently fail at routine perceptual checks, suggesting the need to strengthen
their visual grounding to support clinical adoption. Data is available on our
project page.