MedFuzz: Erforschung der Robustheit großer Sprachmodelle in der medizinischen Fragebeantwortung
MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering
June 3, 2024
Autoren: Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz
cs.AI
Zusammenfassung
Große Sprachmodelle (LLM) haben beeindruckende Leistungen bei medizinischen Frage-Antwort-Benchmarks erzielt. Allerdings bedeutet eine hohe Genauigkeit bei Benchmarks nicht zwangsläufig, dass die Leistung auf reale klinische Umgebungen übertragbar ist. Medizinische Frage-Antwort-Benchmarks beruhen auf Annahmen, die mit der Quantifizierung der LLM-Leistung übereinstimmen, aber die möglicherweise in der realen klinischen Welt nicht zutreffen. Dennoch erwerben LLMs umfassendes Wissen, das ihnen helfen kann, auch bei unrealistischen Annahmen in bekannten Benchmarks auf praktische Bedingungen zu verallgemeinern. Wir möchten quantifizieren, wie gut sich die Leistung von LLMs bei medizinischen Frage-Antwort-Benchmarks verallgemeinert, wenn die Benchmark-Annahmen verletzt werden. Speziell präsentieren wir eine adversarielle Methode, die wir MedFuzz (für medizinisches Fuzzing) nennen. MedFuzz versucht, Benchmark-Fragen so zu modifizieren, dass sie das LLM verwirren. Wir demonstrieren diesen Ansatz, indem wir starke Annahmen über Patientenmerkmale angreifen, die im MedQA-Benchmark präsentiert werden. Erfolgreiche "Angriffe" modifizieren ein Benchmark-Element auf eine Weise, die unwahrscheinlich wäre, um einen medizinischen Experten zu täuschen, aber dennoch das LLM dazu bringt, von einer korrekten zu einer inkorrekten Antwort zu wechseln. Zudem präsentieren wir eine Permutations-Test-Technik, die sicherstellen kann, dass ein erfolgreicher Angriff statistisch signifikant ist. Wir zeigen, wie die Leistung bei einem "MedFuzzed" Benchmark sowie einzelne erfolgreiche Angriffe genutzt werden können. Diese Methoden zeigen vielversprechende Ansätze, um Einblicke in die Fähigkeit eines LLM zu bieten, robust in realistischeren Umgebungen zu agieren.
English
Large language models (LLM) have achieved impressive performance on medical
question-answering benchmarks. However, high benchmark accuracy does not imply
that the performance generalizes to real-world clinical settings. Medical
question-answering benchmarks rely on assumptions consistent with quantifying
LLM performance but that may not hold in the open world of the clinic. Yet LLMs
learn broad knowledge that can help the LLM generalize to practical conditions
regardless of unrealistic assumptions in celebrated benchmarks. We seek to
quantify how well LLM medical question-answering benchmark performance
generalizes when benchmark assumptions are violated. Specifically, we present
an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz
attempts to modify benchmark questions in ways aimed at confounding the LLM. We
demonstrate the approach by targeting strong assumptions about patient
characteristics presented in the MedQA benchmark. Successful "attacks" modify a
benchmark item in ways that would be unlikely to fool a medical expert but
nonetheless "trick" the LLM into changing from a correct to an incorrect
answer. Further, we present a permutation test technique that can ensure a
successful attack is statistically significant. We show how to use performance
on a "MedFuzzed" benchmark, as well as individual successful attacks. The
methods show promise at providing insights into the ability of an LLM to
operate robustly in more realistic settings.Summary
AI-Generated Summary