MedFuzz: Explorando la Robustez de los Modelos de Lenguaje de Gran Escala en la Respuesta a Preguntas Médicas
MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering
June 3, 2024
Autores: Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han logrado un rendimiento impresionante en los benchmarks de preguntas y respuestas médicas. Sin embargo, una alta precisión en los benchmarks no implica que el rendimiento se generalice a entornos clínicos del mundo real. Los benchmarks de preguntas y respuestas médicas se basan en supuestos consistentes con la cuantificación del rendimiento de los LLM, pero que pueden no sostenerse en el entorno abierto de la clínica. Aun así, los LLM aprenden conocimientos amplios que pueden ayudarles a generalizar a condiciones prácticas, independientemente de los supuestos poco realistas en los benchmarks más reconocidos. Buscamos cuantificar qué tan bien se generaliza el rendimiento de los LLM en benchmarks de preguntas y respuestas médicas cuando se violan los supuestos del benchmark. Específicamente, presentamos un método adversarial que llamamos MedFuzz (por "fuzzing médico"). MedFuzz intenta modificar las preguntas del benchmark de maneras destinadas a confundir al LLM. Demostramos el enfoque al dirigirnos a supuestos fuertes sobre las características del paciente presentados en el benchmark MedQA. Los "ataques" exitosos modifican un ítem del benchmark de maneras que probablemente no engañarían a un experto médico, pero que, sin embargo, "engañan" al LLM para que cambie de una respuesta correcta a una incorrecta. Además, presentamos una técnica de prueba de permutación que puede garantizar que un ataque exitoso sea estadísticamente significativo. Mostramos cómo utilizar el rendimiento en un benchmark "MedFuzzeado", así como los ataques individuales exitosos. Los métodos muestran potencial para proporcionar información sobre la capacidad de un LLM para operar de manera robusta en entornos más realistas.
English
Large language models (LLM) have achieved impressive performance on medical
question-answering benchmarks. However, high benchmark accuracy does not imply
that the performance generalizes to real-world clinical settings. Medical
question-answering benchmarks rely on assumptions consistent with quantifying
LLM performance but that may not hold in the open world of the clinic. Yet LLMs
learn broad knowledge that can help the LLM generalize to practical conditions
regardless of unrealistic assumptions in celebrated benchmarks. We seek to
quantify how well LLM medical question-answering benchmark performance
generalizes when benchmark assumptions are violated. Specifically, we present
an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz
attempts to modify benchmark questions in ways aimed at confounding the LLM. We
demonstrate the approach by targeting strong assumptions about patient
characteristics presented in the MedQA benchmark. Successful "attacks" modify a
benchmark item in ways that would be unlikely to fool a medical expert but
nonetheless "trick" the LLM into changing from a correct to an incorrect
answer. Further, we present a permutation test technique that can ensure a
successful attack is statistically significant. We show how to use performance
on a "MedFuzzed" benchmark, as well as individual successful attacks. The
methods show promise at providing insights into the ability of an LLM to
operate robustly in more realistic settings.Summary
AI-Generated Summary