Auditierung multimodaler LLM-Bewerter: Zentraltendenz-Bias in der klinischen Ordinalbewertung

Zusammenfassung

Multimodale große Sprachmodelle (Large Language Models, LLMs) werden zunehmend als automatische Bewerter in klinischen Umgebungen untersucht, jedoch ist ihr Bewertungsverhalten auf ordinalen klinischen Skalen noch wenig verstanden. Wir vergleichen drei führende LLM-Familien mit überwachten Deep-Learning-Modellen zur Bewertung von Uhrentest-Bildern (Clock Drawing Test, CDT) auf zwei öffentlichen Datensätzen unter Verwendung der Shulman-Rubrik. Während vollständig feinabgestimmte Vision Transformers die beste Kalibrierung erreichen (MAE 0,52, Within-1-Genauigkeit 91%), bleiben Zero-Shot-LLMs bei der toleranzbasierten Übereinstimmung wettbewerbsfähig (GPT-5 MAE 0,67, Within-1-Genauigkeit 92%), trotz höherer absoluter Fehler. Eine analyse pro Bewertungsstufe zeigt jedoch, dass alle drei LLM-Familien einen ausgeprägten Zentraltendenzeffekt (systematische Endpunktkompression) aufweisen: Die Vorhersagen werden systematisch zur Mitte der Skala hin komprimiert, mit Überschätzung am unteren Ende (Punktzahl 0 bis 1) und Unterschätzung am oberen Ende (Punktzahl 5 bis 4). Dieser Effekt betrifft überproportional die klinisch kritischen Extremwerte, bei denen eine genaue Bewertung die Screening-Entscheidungen für kognitive Beeinträchtigungen am stärksten beeinflusst. Gezielte Ablationen zeigen, dass weder Few-Shot-Beispiele, die die gesamte Bewertungsskala abdecken, noch das Entfernen klinischer Terminologie aus dem Prompt den Effekt beseitigen. Unsere Ergebnisse erweitern die Literatur zum LLM-als-Richter-Bias von der NLP-Bewertung auf die klinische Beurteilung und unterstreichen die Notwendigkeit einer kalibrierungsbewussten Bewertung sowie einer nachträglichen Kalibrierung, bevor LLM-basierte Bewerter in Screening-Workflows mit hohem Risiko eingesetzt werden.

English

Multimodal large language models (LLMs) are increasingly explored as automated evaluators in clinical settings, yet their scoring behavior on ordinal clinical scales remains poorly understood. We benchmark three frontier LLM families against supervised deep learning models for scoring Clock Drawing Test (CDT) images on two public datasets using the Shulman rubric. While fully fine-tuned Vision Transformers achieve the best calibration (MAE 0.52, within-1 accuracy 91%), zero-shot LLMs remain competitive on tolerance-based agreement (GPT-5 MAE 0.67, within-1 accuracy 92%) despite higher absolute error. However, per-score analysis reveals that all three LLM families exhibit a pronounced central tendency effect (systematic endpoint compression): predictions are systematically compressed toward the middle of the scale, with over-prediction at the low end (score 0 to 1) and under-prediction at the high end (score 5 to 4). This effect disproportionately affects the clinically critical extremes where accurate scoring most impacts screening decisions for cognitive impairment. Targeted ablations show that neither few-shot exemplars spanning the full score range nor removing clinical terminology from the prompt eliminates the effect. Our findings extend the LLM-as-a-judge bias literature from NLP evaluation to clinical assessment, and highlight the need for calibration-aware evaluation and post-hoc calibration before deploying LLM-based raters in high-stakes screening workflows.