MedBLINK: Exploración de la percepción básica en modelos de lenguaje multimodal para medicina
MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine
August 4, 2025
Autores: Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna
cs.AI
Resumen
Los modelos de lenguaje multimodal (MLM, por sus siglas en inglés) muestran potencial para el apoyo en la toma de decisiones clínicas y el razonamiento diagnóstico, abriendo la posibilidad de una interpretación automatizada de imágenes médicas de extremo a extremo. Sin embargo, los profesionales clínicos son altamente selectivos al adoptar herramientas de IA; un modelo que comete errores en tareas de percepción aparentemente simples, como determinar la orientación de una imagen o identificar si una tomografía computarizada está contrastada, es poco probable que sea adoptado para tareas clínicas. Presentamos Medblink, un punto de referencia diseñado para evaluar estas capacidades perceptivas en dichos modelos. Medblink abarca ocho tareas clínicamente relevantes en múltiples modalidades de imagen y regiones anatómicas, con un total de 1.429 preguntas de opción múltiple sobre 1.605 imágenes. Evaluamos 19 MLM de última generación, incluyendo modelos de propósito general (GPT4o, Claude 3.5 Sonnet) y específicos del dominio (Med Flamingo, LLaVA Med, RadFM). Mientras que los anotadores humanos alcanzan una precisión del 96,4%, el modelo con mejor rendimiento llega solo al 65%. Estos resultados demuestran que los MLM actuales fallan con frecuencia en verificaciones perceptivas rutinarias, lo que sugiere la necesidad de fortalecer su fundamentación visual para apoyar su adopción clínica. Los datos están disponibles en nuestra página del proyecto.
English
Multimodal language models (MLMs) show promise for clinical decision support
and diagnostic reasoning, raising the prospect of end-to-end automated medical
image interpretation. However, clinicians are highly selective in adopting AI
tools; a model that makes errors on seemingly simple perception tasks such as
determining image orientation or identifying whether a CT scan is
contrast-enhance are unlikely to be adopted for clinical tasks. We introduce
Medblink, a benchmark designed to probe these models for such perceptual
abilities. Medblink spans eight clinically meaningful tasks across multiple
imaging modalities and anatomical regions, totaling 1,429 multiple-choice
questions over 1,605 images. We evaluate 19 state-of-the-art MLMs, including
general purpose (GPT4o, Claude 3.5 Sonnet) and domain specific (Med Flamingo,
LLaVA Med, RadFM) models. While human annotators achieve 96.4% accuracy, the
best-performing model reaches only 65%. These results show that current MLMs
frequently fail at routine perceptual checks, suggesting the need to strengthen
their visual grounding to support clinical adoption. Data is available on our
project page.