MedFuzz: Explorando a Robustez de Modelos de Linguagem de Grande Porte em Respostas a Perguntas Médicas
MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering
June 3, 2024
Autores: Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz
cs.AI
Resumo
Modelos de linguagem de grande escala (LLM, do inglês *Large Language Models*) têm alcançado desempenho impressionante em benchmarks de resposta a perguntas médicas. No entanto, alta precisão em benchmarks não implica que o desempenho se generalize para cenários clínicos do mundo real. Benchmarks de resposta a perguntas médicas dependem de suposições consistentes com a quantificação do desempenho de LLMs, mas que podem não se sustentar no ambiente aberto da clínica. Ainda assim, LLMs aprendem conhecimentos amplos que podem ajudar o modelo a generalizar para condições práticas, independentemente de suposições irrealistas em benchmarks consagrados. Buscamos quantificar o quão bem o desempenho de LLMs em benchmarks de resposta a perguntas médicas se generaliza quando as suposições do benchmark são violadas. Especificamente, apresentamos um método adversarial que chamamos de MedFuzz (do inglês *medical fuzzing*). O MedFuzz tenta modificar as perguntas do benchmark de maneiras que visam confundir o LLM. Demonstramos a abordagem direcionando suposições fortes sobre características do paciente apresentadas no benchmark MedQA. "Ataques" bem-sucedidos modificam um item do benchmark de formas que dificilmente enganariam um especialista médico, mas que, ainda assim, "enganam" o LLM, fazendo-o mudar de uma resposta correta para uma incorreta. Além disso, apresentamos uma técnica de teste de permutação que pode garantir que um ataque bem-sucedido seja estatisticamente significativo. Mostramos como usar o desempenho em um benchmark "MedFuzzado", bem como ataques individuais bem-sucedidos. Os métodos mostram potencial para fornecer insights sobre a capacidade de um LLM de operar de forma robusta em cenários mais realistas.
English
Large language models (LLM) have achieved impressive performance on medical
question-answering benchmarks. However, high benchmark accuracy does not imply
that the performance generalizes to real-world clinical settings. Medical
question-answering benchmarks rely on assumptions consistent with quantifying
LLM performance but that may not hold in the open world of the clinic. Yet LLMs
learn broad knowledge that can help the LLM generalize to practical conditions
regardless of unrealistic assumptions in celebrated benchmarks. We seek to
quantify how well LLM medical question-answering benchmark performance
generalizes when benchmark assumptions are violated. Specifically, we present
an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz
attempts to modify benchmark questions in ways aimed at confounding the LLM. We
demonstrate the approach by targeting strong assumptions about patient
characteristics presented in the MedQA benchmark. Successful "attacks" modify a
benchmark item in ways that would be unlikely to fool a medical expert but
nonetheless "trick" the LLM into changing from a correct to an incorrect
answer. Further, we present a permutation test technique that can ensure a
successful attack is statistically significant. We show how to use performance
on a "MedFuzzed" benchmark, as well as individual successful attacks. The
methods show promise at providing insights into the ability of an LLM to
operate robustly in more realistic settings.