Auditoría de Evaluadores de LLM Multimodales: Sesgo de Tendencia Central en la Puntuación Ordinal Clínica

Resumen

Los modelos de lenguaje grandes multimodales se exploran cada vez más como evaluadores automatizados en entornos clínicos, pero su comportamiento de puntuación en escalas clínicas ordinales sigue siendo poco comprendido. Evaluamos tres familias de modelos de lenguaje grandes de última generación frente a modelos de aprendizaje profundo supervisado para puntuar imágenes del Test del Reloj (CDT) en dos conjuntos de datos públicos utilizando la rúbrica de Shulman. Si bien los Transformers de Visión completamente ajustados logran la mejor calibración (MAE 0.52, precisión dentro de 1 del 91%), los modelos de lenguaje grandes en modo zero-shot siguen siendo competitivos en cuanto a concordancia basada en tolerancia (GPT-5 MAE 0.67, precisión dentro de 1 del 92%) a pesar de un error absoluto mayor. Sin embargo, el análisis por puntuación revela que las tres familias de modelos de lenguaje grandes presentan un pronunciado efecto de tendencia central (compresión sistemática de los extremos): las predicciones se comprimen sistemáticamente hacia el centro de la escala, con sobrepredicción en el extremo inferior (puntuación 0 a 1) y subpredicción en el extremo superior (puntuación 5 a 4). Este efecto afecta desproporcionadamente a los extremos clínicamente críticos, donde una puntuación precisa tiene mayor impacto en las decisiones de cribado para el deterioro cognitivo. Las ablaciones dirigidas muestran que ni los ejemplos de pocas muestras que abarcan todo el rango de puntuación ni la eliminación de terminología clínica de la instrucción eliminan el efecto. Nuestros hallazgos extienden la literatura sobre sesgos en modelos de lenguaje grandes como jueces, desde la evaluación del procesamiento del lenguaje natural hasta la evaluación clínica, y destacan la necesidad de una evaluación consciente de la calibración y de una calibración post-hoc antes de implementar evaluadores basados en modelos de lenguaje grandes en flujos de trabajo de cribado de alto riesgo.

English

Multimodal large language models (LLMs) are increasingly explored as automated evaluators in clinical settings, yet their scoring behavior on ordinal clinical scales remains poorly understood. We benchmark three frontier LLM families against supervised deep learning models for scoring Clock Drawing Test (CDT) images on two public datasets using the Shulman rubric. While fully fine-tuned Vision Transformers achieve the best calibration (MAE 0.52, within-1 accuracy 91%), zero-shot LLMs remain competitive on tolerance-based agreement (GPT-5 MAE 0.67, within-1 accuracy 92%) despite higher absolute error. However, per-score analysis reveals that all three LLM families exhibit a pronounced central tendency effect (systematic endpoint compression): predictions are systematically compressed toward the middle of the scale, with over-prediction at the low end (score 0 to 1) and under-prediction at the high end (score 5 to 4). This effect disproportionately affects the clinically critical extremes where accurate scoring most impacts screening decisions for cognitive impairment. Targeted ablations show that neither few-shot exemplars spanning the full score range nor removing clinical terminology from the prompt eliminates the effect. Our findings extend the LLM-as-a-judge bias literature from NLP evaluation to clinical assessment, and highlight the need for calibration-aware evaluation and post-hoc calibration before deploying LLM-based raters in high-stakes screening workflows.