Auditoria de Avaliadores de LLM Multimodais: Viés de Tendência Central na Pontuação Ordinal Clínica

Resumo

Modelos de linguagem grandes multimodais (LLMs) estão cada vez mais sendo explorados como avaliadores automatizados em contextos clínicos, mas seu comportamento de pontuação em escalas clínicas ordinais ainda é pouco compreendido. Comparamos três famílias de LLMs de ponta com modelos de aprendizado profundo supervisionados para pontuar imagens do Teste do Desenho do Relógio (TDR) em dois conjuntos de dados públicos usando a rubrica de Shulman. Embora Transformers de Visão totalmente ajustados atinjam a melhor calibração (EAM 0,52, precisão dentro de 1 de 91%), os LLMs zero-shot permanecem competitivos em concordância baseada em tolerância (GPT-5 EAM 0,67, precisão dentro de 1 de 92%), apesar do maior erro absoluto. No entanto, a análise por pontuação revela que todas as três famílias de LLMs exibem um efeito de tendência central pronunciado (compressão sistemática dos extremos): as previsões são sistematicamente comprimidas em direção ao meio da escala, com superestimação no extremo inferior (pontuação 0 a 1) e subestimação no extremo superior (pontuação 5 a 4). Esse efeito afeta desproporcionalmente os extremos clinicamente críticos, onde a pontuação precisa tem maior impacto nas decisões de triagem para comprometimento cognitivo. Ablações direcionadas mostram que nem o uso de exemplos few-shot abrangendo toda a faixa de pontuação nem a remoção de terminologia clínica do prompt eliminam o efeito. Nossos achados estendem a literatura sobre viés de LLM como juiz, da avaliação em PNL para a avaliação clínica, e destacam a necessidade de avaliação consciente de calibração e calibração post-hoc antes de implantar avaliadores baseados em LLM em fluxos de triagem de alto risco.

English

Multimodal large language models (LLMs) are increasingly explored as automated evaluators in clinical settings, yet their scoring behavior on ordinal clinical scales remains poorly understood. We benchmark three frontier LLM families against supervised deep learning models for scoring Clock Drawing Test (CDT) images on two public datasets using the Shulman rubric. While fully fine-tuned Vision Transformers achieve the best calibration (MAE 0.52, within-1 accuracy 91%), zero-shot LLMs remain competitive on tolerance-based agreement (GPT-5 MAE 0.67, within-1 accuracy 92%) despite higher absolute error. However, per-score analysis reveals that all three LLM families exhibit a pronounced central tendency effect (systematic endpoint compression): predictions are systematically compressed toward the middle of the scale, with over-prediction at the low end (score 0 to 1) and under-prediction at the high end (score 5 to 4). This effect disproportionately affects the clinically critical extremes where accurate scoring most impacts screening decisions for cognitive impairment. Targeted ablations show that neither few-shot exemplars spanning the full score range nor removing clinical terminology from the prompt eliminates the effect. Our findings extend the LLM-as-a-judge bias literature from NLP evaluation to clinical assessment, and highlight the need for calibration-aware evaluation and post-hoc calibration before deploying LLM-based raters in high-stakes screening workflows.