Mesure de la résilience épistémique des LLMs dans un contexte médical trompeur

Résumé

Les grands modèles de langage (LLMs) atteignent désormais des scores de niveau expert aux examens d'autorisation d'exercice de la médecine, ce qui encourage l'hypothèse selon laquelle des scores élevés impliquent un jugement médical sûr, tandis que les patients les utilisent de plus en plus pour obtenir des conseils de santé. Nous montrons que cette hypothèse est fragile : lorsqu'un contexte trompeur est injecté dans des questions auxquelles les LLMs répondaient initialement correctement, ils abandonnent la bonne réponse. Nous appelons résilience épistémique la capacité à maintenir un jugement correct dans un contexte adversarial, et nous introduisons MedMisBench pour la mesurer. MedMisBench contient 10 932 questions médicales et 48 889 paires contexte-option trompeuses couvrant le raisonnement médical, la capacité agentive et l'évaluation du parcours patient. Sur 11 configurations de modèles, la précision moyenne passe de 71,1 % sur les questions originales à 38,0 % dans un contexte trompeur ciblé, avec un taux de réussite de l'attaque de 51,5 %. Les injections les plus dommageables sont des fabrications formelles et ressemblant à des règles : les contre-vérités cadrées par une autorité atteignent un taux de réussite de l'attaque de 69,5 % et les affirmations d'empoisonnement par exception atteignent 64,1 %. Un panel clinique de 14 membres provenant de 7 pays a identifié un préjudice potentiel grave dans 38,2 % des cas examinés. MedMisBench expose un angle mort structurel dans l'évaluation des LLMs en contexte médical : les références existantes mesurent ce que les modèles savent, mais pas s'ils préservent un jugement médical correct dans un contexte trompeur.

English

Large language models (LLMs) now reach expert-level scores on medical licensing exams, encouraging the assumption that high scores imply safe medical judgment while patients increasingly use them for health advice. We show this assumption is fragile: when misleading context is injected into questions that LLMs originally answer correctly, they abandon the correct answer. We call the ability to maintain correct judgment under adversarial context epistemic resilience, and introduce MedMisBench to measure it. MedMisBench contains 10,932 medical question items and 48,889 misleading context-option pairs spanning medical reasoning, agentic capability, and patient-journey evaluation. Across 11 model configurations, mean accuracy falls from 71.1% on original questions to 38.0% under focused misleading context, with 51.5% attack success. The most damaging injections are formal, rule-like fabrications: authority-framed falsehoods reach 69.5% attack success and exception-poisoning claims reach 64.1%. A 14-member clinical panel from 7 countries identified serious potential harm in 38.2% of reviewed cases. MedMisBench exposes a structural blind spot in LLM evaluation in medical settings: existing benchmarks measure what models know, but not whether they preserve correct medical judgment under misleading context.