Midiendo la resiliencia epistémica de los LLMs en contextos médicos engañosos

Resumen

Los modelos de lenguaje de gran escala (LLMs) ahora alcanzan puntuaciones de nivel experto en exámenes de licencias médicas, lo que fomenta la suposición de que puntuaciones altas implican un juicio médico seguro, mientras los pacientes recurren cada vez más a ellos para obtener consejos de salud. Demostramos que esta suposición es frágil: cuando se inyecta contexto engañoso en preguntas que los LLMs inicialmente responden correctamente, abandonan la respuesta correcta. Denominamos a esta capacidad de mantener un juicio correcto bajo contexto adversarial como resiliencia epistémica, e introducimos MedMisBench para medirla. MedMisBench contiene 10,932 ítems de preguntas médicas y 48,889 pares de contexto-opciones engañosos que abarcan razonamiento médico, capacidad agentiva y evaluación del recorrido del paciente. En 11 configuraciones de modelos, la precisión media cae del 71.1 % en preguntas originales al 38.0 % bajo contexto engañoso focalizado, con un 51.5 % de éxito de ataque. Las inserciones más dañinas son fabricaciones formales, similares a reglas: las falsedades enmarcadas con autoridad alcanzan un 69.5 % de éxito de ataque y las afirmaciones de envenenamiento por excepción llegan al 64.1 %. Un panel clínico de 14 miembros de 7 países identificó daño potencial grave en el 38.2 % de los casos revisados. MedMisBench expone un punto ciego estructural en la evaluación de LLMs en entornos médicos: los puntos de referencia existentes miden lo que los modelos saben, pero no si preservan un juicio médico correcto bajo contexto engañoso.

English

Large language models (LLMs) now reach expert-level scores on medical licensing exams, encouraging the assumption that high scores imply safe medical judgment while patients increasingly use them for health advice. We show this assumption is fragile: when misleading context is injected into questions that LLMs originally answer correctly, they abandon the correct answer. We call the ability to maintain correct judgment under adversarial context epistemic resilience, and introduce MedMisBench to measure it. MedMisBench contains 10,932 medical question items and 48,889 misleading context-option pairs spanning medical reasoning, agentic capability, and patient-journey evaluation. Across 11 model configurations, mean accuracy falls from 71.1% on original questions to 38.0% under focused misleading context, with 51.5% attack success. The most damaging injections are formal, rule-like fabrications: authority-framed falsehoods reach 69.5% attack success and exception-poisoning claims reach 64.1%. A 14-member clinical panel from 7 countries identified serious potential harm in 38.2% of reviewed cases. MedMisBench exposes a structural blind spot in LLM evaluation in medical settings: existing benchmarks measure what models know, but not whether they preserve correct medical judgment under misleading context.