Messung der epistemischen Resilienz von LLMs unter irreführendem medizinischen Kontext

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) erzielen inzwischen Ergebnisse auf Expertenniveau bei medizinischen Zulassungsprüfungen, was die Annahme befördert, dass hohe Punktzahlen mit sicherer medizinischer Urteilsfähigkeit gleichzusetzen sind – während Patientinnen und Patienten zunehmend auf LLMs für Gesundheitsratschläge zurückgreifen. Wir zeigen, dass diese Annahme fragil ist: Wenn in Fragen, die LLMs ursprünglich korrekt beantworten, irreführender Kontext eingefügt wird, geben sie die richtige Antwort auf. Die Fähigkeit, unter adversariellem Kontext ein korrektes Urteil aufrechtzuerhalten, nennen wir epistemische Resilienz und führen MedMisBench zu ihrer Messung ein. MedMisBench umfasst 10.932 medizinische Frageitems und 48.889 Paare aus irreführendem Kontext und Antwortoptionen, die medizinisches Reasoning, agentische Fähigkeiten und die Bewertung des Patientenverlaufs abdecken. Über 11 Modellkonfigurationen hinweg fällt die durchschnittliche Genauigkeit von 71,1 % bei Originalfragen auf 38,0 % unter gezielt irreführendem Kontext, mit einer Angriffserfolgsrate von 51,5 %. Die schädlichsten Injektionen sind formale, regelartige Fälschungen: autoritätsgerahmte Falschaussagen erzielen 69,5 % Angriffserfolg, ausnahmevergiftende Behauptungen 64,1 %. Ein 14-köpfiges klinisches Panel aus 7 Ländern identifizierte in 38,2 % der überprüften Fälle ernsthaften potenziellen Schaden. MedMisBench legt einen strukturellen blinden Fleck in der LLM-Evaluierung im medizinischen Umfeld offen: Vorhandene Benchmarks messen, was Modelle wissen, aber nicht, ob sie korrekte medizinische Urteile unter irreführendem Kontext bewahren.

English

Large language models (LLMs) now reach expert-level scores on medical licensing exams, encouraging the assumption that high scores imply safe medical judgment while patients increasingly use them for health advice. We show this assumption is fragile: when misleading context is injected into questions that LLMs originally answer correctly, they abandon the correct answer. We call the ability to maintain correct judgment under adversarial context epistemic resilience, and introduce MedMisBench to measure it. MedMisBench contains 10,932 medical question items and 48,889 misleading context-option pairs spanning medical reasoning, agentic capability, and patient-journey evaluation. Across 11 model configurations, mean accuracy falls from 71.1% on original questions to 38.0% under focused misleading context, with 51.5% attack success. The most damaging injections are formal, rule-like fabrications: authority-framed falsehoods reach 69.5% attack success and exception-poisoning claims reach 64.1%. A 14-member clinical panel from 7 countries identified serious potential harm in 38.2% of reviewed cases. MedMisBench exposes a structural blind spot in LLM evaluation in medical settings: existing benchmarks measure what models know, but not whether they preserve correct medical judgment under misleading context.