MedFuzz: Explorando la Robustez de los Modelos de Lenguaje de Gran Escala en la Respuesta a Preguntas Médicas

Resumen

Los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han logrado un rendimiento impresionante en los benchmarks de preguntas y respuestas médicas. Sin embargo, una alta precisión en los benchmarks no implica que el rendimiento se generalice a entornos clínicos del mundo real. Los benchmarks de preguntas y respuestas médicas se basan en supuestos consistentes con la cuantificación del rendimiento de los LLM, pero que pueden no sostenerse en el entorno abierto de la clínica. Aun así, los LLM aprenden conocimientos amplios que pueden ayudarles a generalizar a condiciones prácticas, independientemente de los supuestos poco realistas en los benchmarks más reconocidos. Buscamos cuantificar qué tan bien se generaliza el rendimiento de los LLM en benchmarks de preguntas y respuestas médicas cuando se violan los supuestos del benchmark. Específicamente, presentamos un método adversarial que llamamos MedFuzz (por "fuzzing médico"). MedFuzz intenta modificar las preguntas del benchmark de maneras destinadas a confundir al LLM. Demostramos el enfoque al dirigirnos a supuestos fuertes sobre las características del paciente presentados en el benchmark MedQA. Los "ataques" exitosos modifican un ítem del benchmark de maneras que probablemente no engañarían a un experto médico, pero que, sin embargo, "engañan" al LLM para que cambie de una respuesta correcta a una incorrecta. Además, presentamos una técnica de prueba de permutación que puede garantizar que un ataque exitoso sea estadísticamente significativo. Mostramos cómo utilizar el rendimiento en un benchmark "MedFuzzeado", así como los ataques individuales exitosos. Los métodos muestran potencial para proporcionar información sobre la capacidad de un LLM para operar de manera robusta en entornos más realistas.

English

Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quantifying LLM performance but that may not hold in the open world of the clinic. Yet LLMs learn broad knowledge that can help the LLM generalize to practical conditions regardless of unrealistic assumptions in celebrated benchmarks. We seek to quantify how well LLM medical question-answering benchmark performance generalizes when benchmark assumptions are violated. Specifically, we present an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz attempts to modify benchmark questions in ways aimed at confounding the LLM. We demonstrate the approach by targeting strong assumptions about patient characteristics presented in the MedQA benchmark. Successful "attacks" modify a benchmark item in ways that would be unlikely to fool a medical expert but nonetheless "trick" the LLM into changing from a correct to an incorrect answer. Further, we present a permutation test technique that can ensure a successful attack is statistically significant. We show how to use performance on a "MedFuzzed" benchmark, as well as individual successful attacks. The methods show promise at providing insights into the ability of an LLM to operate robustly in more realistic settings.

MedFuzz: Explorando la Robustez de los Modelos de Lenguaje de Gran Escala en la Respuesta a Preguntas Médicas

MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering

Resumen

Support