MedFuzz: Explorando a Robustez de Modelos de Linguagem de Grande Porte em Respostas a Perguntas Médicas

Resumo

Modelos de linguagem de grande escala (LLM, do inglês *Large Language Models*) têm alcançado desempenho impressionante em benchmarks de resposta a perguntas médicas. No entanto, alta precisão em benchmarks não implica que o desempenho se generalize para cenários clínicos do mundo real. Benchmarks de resposta a perguntas médicas dependem de suposições consistentes com a quantificação do desempenho de LLMs, mas que podem não se sustentar no ambiente aberto da clínica. Ainda assim, LLMs aprendem conhecimentos amplos que podem ajudar o modelo a generalizar para condições práticas, independentemente de suposições irrealistas em benchmarks consagrados. Buscamos quantificar o quão bem o desempenho de LLMs em benchmarks de resposta a perguntas médicas se generaliza quando as suposições do benchmark são violadas. Especificamente, apresentamos um método adversarial que chamamos de MedFuzz (do inglês *medical fuzzing*). O MedFuzz tenta modificar as perguntas do benchmark de maneiras que visam confundir o LLM. Demonstramos a abordagem direcionando suposições fortes sobre características do paciente apresentadas no benchmark MedQA. "Ataques" bem-sucedidos modificam um item do benchmark de formas que dificilmente enganariam um especialista médico, mas que, ainda assim, "enganam" o LLM, fazendo-o mudar de uma resposta correta para uma incorreta. Além disso, apresentamos uma técnica de teste de permutação que pode garantir que um ataque bem-sucedido seja estatisticamente significativo. Mostramos como usar o desempenho em um benchmark "MedFuzzado", bem como ataques individuais bem-sucedidos. Os métodos mostram potencial para fornecer insights sobre a capacidade de um LLM de operar de forma robusta em cenários mais realistas.

English

Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quantifying LLM performance but that may not hold in the open world of the clinic. Yet LLMs learn broad knowledge that can help the LLM generalize to practical conditions regardless of unrealistic assumptions in celebrated benchmarks. We seek to quantify how well LLM medical question-answering benchmark performance generalizes when benchmark assumptions are violated. Specifically, we present an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz attempts to modify benchmark questions in ways aimed at confounding the LLM. We demonstrate the approach by targeting strong assumptions about patient characteristics presented in the MedQA benchmark. Successful "attacks" modify a benchmark item in ways that would be unlikely to fool a medical expert but nonetheless "trick" the LLM into changing from a correct to an incorrect answer. Further, we present a permutation test technique that can ensure a successful attack is statistically significant. We show how to use performance on a "MedFuzzed" benchmark, as well as individual successful attacks. The methods show promise at providing insights into the ability of an LLM to operate robustly in more realistic settings.

MedFuzz: Explorando a Robustez de Modelos de Linguagem de Grande Porte em Respostas a Perguntas Médicas

MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering

Resumo

Support