ChatPaper.aiChatPaper

MedFuzz: Erforschung der Robustheit großer Sprachmodelle in der medizinischen Fragebeantwortung

MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering

June 3, 2024
Autoren: Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz
cs.AI

Zusammenfassung

Große Sprachmodelle (LLM) haben beeindruckende Leistungen bei medizinischen Frage-Antwort-Benchmarks erzielt. Allerdings bedeutet eine hohe Genauigkeit bei Benchmarks nicht zwangsläufig, dass die Leistung auf reale klinische Umgebungen übertragbar ist. Medizinische Frage-Antwort-Benchmarks beruhen auf Annahmen, die mit der Quantifizierung der LLM-Leistung übereinstimmen, aber die möglicherweise in der realen klinischen Welt nicht zutreffen. Dennoch erwerben LLMs umfassendes Wissen, das ihnen helfen kann, auch bei unrealistischen Annahmen in bekannten Benchmarks auf praktische Bedingungen zu verallgemeinern. Wir möchten quantifizieren, wie gut sich die Leistung von LLMs bei medizinischen Frage-Antwort-Benchmarks verallgemeinert, wenn die Benchmark-Annahmen verletzt werden. Speziell präsentieren wir eine adversarielle Methode, die wir MedFuzz (für medizinisches Fuzzing) nennen. MedFuzz versucht, Benchmark-Fragen so zu modifizieren, dass sie das LLM verwirren. Wir demonstrieren diesen Ansatz, indem wir starke Annahmen über Patientenmerkmale angreifen, die im MedQA-Benchmark präsentiert werden. Erfolgreiche "Angriffe" modifizieren ein Benchmark-Element auf eine Weise, die unwahrscheinlich wäre, um einen medizinischen Experten zu täuschen, aber dennoch das LLM dazu bringt, von einer korrekten zu einer inkorrekten Antwort zu wechseln. Zudem präsentieren wir eine Permutations-Test-Technik, die sicherstellen kann, dass ein erfolgreicher Angriff statistisch signifikant ist. Wir zeigen, wie die Leistung bei einem "MedFuzzed" Benchmark sowie einzelne erfolgreiche Angriffe genutzt werden können. Diese Methoden zeigen vielversprechende Ansätze, um Einblicke in die Fähigkeit eines LLM zu bieten, robust in realistischeren Umgebungen zu agieren.
English
Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quantifying LLM performance but that may not hold in the open world of the clinic. Yet LLMs learn broad knowledge that can help the LLM generalize to practical conditions regardless of unrealistic assumptions in celebrated benchmarks. We seek to quantify how well LLM medical question-answering benchmark performance generalizes when benchmark assumptions are violated. Specifically, we present an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz attempts to modify benchmark questions in ways aimed at confounding the LLM. We demonstrate the approach by targeting strong assumptions about patient characteristics presented in the MedQA benchmark. Successful "attacks" modify a benchmark item in ways that would be unlikely to fool a medical expert but nonetheless "trick" the LLM into changing from a correct to an incorrect answer. Further, we present a permutation test technique that can ensure a successful attack is statistically significant. We show how to use performance on a "MedFuzzed" benchmark, as well as individual successful attacks. The methods show promise at providing insights into the ability of an LLM to operate robustly in more realistic settings.

Summary

AI-Generated Summary

PDF110December 8, 2024