Audit des évaluateurs LLM multimodaux : biais de tendance centrale dans le scoring ordinal clinique

Résumé

Les modèles de langage de grande taille multimodaux (LLM) sont de plus en plus explorés comme évaluateurs automatisés en contexte clinique, mais leur comportement de notation sur des échelles cliniques ordinales reste mal compris. Nous comparons trois familles de LLM de pointe à des modèles d'apprentissage profond supervisé pour la notation d'images du test de l'horloge (CDT) sur deux ensembles de données publics, en utilisant la grille de Shulman. Alors que les Vision Transformers entièrement affinés obtiennent la meilleure calibration (MAE 0,52, précision à 1 près 91 %), les LLM en mode zéro-shot restent compétitifs en termes d'accord basé sur la tolérance (MAE 0,67 pour GPT-5, précision à 1 près 92 %) malgré une erreur absolue plus élevée. Cependant, l'analyse par score révèle que les trois familles de LLM présentent un effet marqué de tendance centrale (compression systématique des extrémités) : les prédictions sont systématiquement comprimées vers le milieu de l'échelle, avec une surestimation à l'extrémité inférieure (score 0 à 1) et une sous-estimation à l'extrémité supérieure (score 5 à 4). Cet effet affecte de manière disproportionnée les extrêmes cliniquement critiques, où une notation précise a le plus d'impact sur les décisions de dépistage des troubles cognitifs. Des ablations ciblées montrent que ni l'utilisation d'exemples en quelques prises couvrant toute l'étendue des scores, ni la suppression de la terminologie clinique de l'invite n'éliminent cet effet. Nos résultats étendent la littérature sur le biais du LLM en tant que juge, de l'évaluation en traitement du langage naturel à l'évaluation clinique, et soulignent la nécessité d'une évaluation tenant compte de la calibration et d'un étalonnage a posteriori avant de déployer des évaluateurs basés sur des LLM dans des flux de travail de dépistage à enjeux élevés.

English

Multimodal large language models (LLMs) are increasingly explored as automated evaluators in clinical settings, yet their scoring behavior on ordinal clinical scales remains poorly understood. We benchmark three frontier LLM families against supervised deep learning models for scoring Clock Drawing Test (CDT) images on two public datasets using the Shulman rubric. While fully fine-tuned Vision Transformers achieve the best calibration (MAE 0.52, within-1 accuracy 91%), zero-shot LLMs remain competitive on tolerance-based agreement (GPT-5 MAE 0.67, within-1 accuracy 92%) despite higher absolute error. However, per-score analysis reveals that all three LLM families exhibit a pronounced central tendency effect (systematic endpoint compression): predictions are systematically compressed toward the middle of the scale, with over-prediction at the low end (score 0 to 1) and under-prediction at the high end (score 5 to 4). This effect disproportionately affects the clinically critical extremes where accurate scoring most impacts screening decisions for cognitive impairment. Targeted ablations show that neither few-shot exemplars spanning the full score range nor removing clinical terminology from the prompt eliminates the effect. Our findings extend the LLM-as-a-judge bias literature from NLP evaluation to clinical assessment, and highlight the need for calibration-aware evaluation and post-hoc calibration before deploying LLM-based raters in high-stakes screening workflows.