Medindo a Resiliência Epistêmica de LLMs em Contexto Médico Enganador

Resumo

Modelos de linguagem de grande escala (LLMs) agora alcançam pontuações em nível de especialista em exames de licenciamento médico, incentivando a suposição de que pontuações altas implicam julgamento médico seguro, enquanto pacientes os utilizam cada vez mais para aconselhamento de saúde. Mostramos que essa suposição é frágil: quando um contexto enganoso é injetado em perguntas que os LLMs originalmente respondem corretamente, eles abandonam a resposta correta. Chamamos a capacidade de manter um julgamento correto sob contexto adversarial de resiliência epistêmica, e introduzimos o MedMisBench para medi-la. O MedMisBench contém 10.932 itens de perguntas médicas e 48.889 pares de contexto-opção enganosos, abrangendo raciocínio médico, capacidade agentiva e avaliação da jornada do paciente. Em 11 configurações de modelo, a acurácia média cai de 71,1% nas perguntas originais para 38,0% sob contexto enganoso focado, com 51,5% de sucesso de ataque. As injeções mais prejudiciais são fabricações formais, semelhantes a regras: falsidades enquadradas como autoridade alcançam 69,5% de sucesso de ataque e alegações de envenenamento por exceção alcançam 64,1%. Um painel clínico de 14 membros de 7 países identificou dano potencial grave em 38,2% dos casos revisados. O MedMisBench expõe um ponto cego estrutural na avaliação de LLMs em contextos médicos: os benchmarks existentes medem o que os modelos sabem, mas não se eles preservam o julgamento médico correto sob contexto enganoso.

English

Large language models (LLMs) now reach expert-level scores on medical licensing exams, encouraging the assumption that high scores imply safe medical judgment while patients increasingly use them for health advice. We show this assumption is fragile: when misleading context is injected into questions that LLMs originally answer correctly, they abandon the correct answer. We call the ability to maintain correct judgment under adversarial context epistemic resilience, and introduce MedMisBench to measure it. MedMisBench contains 10,932 medical question items and 48,889 misleading context-option pairs spanning medical reasoning, agentic capability, and patient-journey evaluation. Across 11 model configurations, mean accuracy falls from 71.1% on original questions to 38.0% under focused misleading context, with 51.5% attack success. The most damaging injections are formal, rule-like fabrications: authority-framed falsehoods reach 69.5% attack success and exception-poisoning claims reach 64.1%. A 14-member clinical panel from 7 countries identified serious potential harm in 38.2% of reviewed cases. MedMisBench exposes a structural blind spot in LLM evaluation in medical settings: existing benchmarks measure what models know, but not whether they preserve correct medical judgment under misleading context.