Аудит мультимодальных LLM-оценщиков: систематическая ошибка центральной тенденции в клиническом ординальном оценивании

Аннотация

Мультимодальные большие языковые модели (LLM) все чаще исследуются в качестве автоматизированных оценщиков в клинических условиях, однако их поведение при выставлении баллов по порядковым клиническим шкалам остается плохо изученным. Мы проводим сравнительный анализ трех передовых семейств LLM с контролируемыми моделями глубокого обучения для оценки изображений теста рисования часов (CDT) на двух общедоступных наборах данных с использованием рубрики Шульмана. Хотя полностью дообученные Vision Transformers достигают наилучшей калибровки (MAE 0.52, точность в пределах 1 балла 91%), LLM с нулевым обучением остаются конкурентоспособными по согласованности на основе допусков (GPT-5 MAE 0.67, точность в пределах 1 балла 92%), несмотря на более высокую абсолютную ошибку. Однако поScore-анализ показывает, что все три семейства LLM демонстрируют выраженный эффект центральной тенденции (систематическое сжатие крайних значений): предсказания систематически сжимаются к середине шкалы, с завышением на нижнем конце (баллы от 0 до 1) и занижением на верхнем конце (баллы от 5 до 4). Этот эффект непропорционально сильно затрагивает клинически критические крайние значения, где точное оценивание наиболее сильно влияет на решения о скрининге когнитивных нарушений. Целенаправленные абляции показывают, что ни использование примеров с полным диапазоном баллов в режиме нескольких попыток, ни удаление клинической терминологии из промпта не устраняют этот эффект. Наши результаты расширяют литературу по смещению LLM как судей с оценки NLP на клиническую оценку и подчеркивают необходимость оценки с учетом калибровки и последующей калибровки перед внедрением оценщиков на основе LLM в рабочие процессы скрининга с высокой ответственностью.

English

Multimodal large language models (LLMs) are increasingly explored as automated evaluators in clinical settings, yet their scoring behavior on ordinal clinical scales remains poorly understood. We benchmark three frontier LLM families against supervised deep learning models for scoring Clock Drawing Test (CDT) images on two public datasets using the Shulman rubric. While fully fine-tuned Vision Transformers achieve the best calibration (MAE 0.52, within-1 accuracy 91%), zero-shot LLMs remain competitive on tolerance-based agreement (GPT-5 MAE 0.67, within-1 accuracy 92%) despite higher absolute error. However, per-score analysis reveals that all three LLM families exhibit a pronounced central tendency effect (systematic endpoint compression): predictions are systematically compressed toward the middle of the scale, with over-prediction at the low end (score 0 to 1) and under-prediction at the high end (score 5 to 4). This effect disproportionately affects the clinically critical extremes where accurate scoring most impacts screening decisions for cognitive impairment. Targeted ablations show that neither few-shot exemplars spanning the full score range nor removing clinical terminology from the prompt eliminates the effect. Our findings extend the LLM-as-a-judge bias literature from NLP evaluation to clinical assessment, and highlight the need for calibration-aware evaluation and post-hoc calibration before deploying LLM-based raters in high-stakes screening workflows.