MedFuzz: Onderzoek naar de robuustheid van grote taalmodellen bij het beantwoorden van medische vragen
MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering
June 3, 2024
Auteurs: Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben indrukwekkende prestaties geleverd op benchmarks voor medische vraag-antwoordtaken. Hoge nauwkeurigheid op benchmarks betekent echter niet dat deze prestaties gegeneraliseerd kunnen worden naar realistische klinische omgevingen. Benchmarks voor medische vraag-antwoordtaken zijn gebaseerd op aannames die consistent zijn met het kwantificeren van LLM-prestaties, maar die mogelijk niet standhouden in de open wereld van de kliniek. Toch leren LLM's brede kennis die kan helpen om te generaliseren naar praktische omstandigheden, ongeacht onrealistische aannames in gerenommeerde benchmarks. Wij streven ernaar te kwantificeren hoe goed de prestaties van LLM's op medische vraag-antwoordbenchmarks generaliseren wanneer benchmarkaannames worden geschonden. Specifiek presenteren we een adversariële methode die we MedFuzz noemen (voor medische fuzzing). MedFuzz probeert benchmarkvragen op manieren aan te passen die bedoeld zijn om de LLM te verwarren. We demonstreren deze aanpak door sterke aannames over patiëntkenmerken in de MedQA-benchmark aan te vallen. Succesvolle "aanvallen" wijzigen een benchmarkitem op manieren die een medisch expert waarschijnlijk niet zouden misleiden, maar desondanks de LLM "misleiden" om van een correct naar een incorrect antwoord te veranderen. Verder presenteren we een permutatietesttechniek die kan garanderen dat een succesvolle aanvaller statistisch significant is. We laten zien hoe prestaties op een "MedFuzz-gebaseerde" benchmark, evenals individuele succesvolle aanvallen, kunnen worden gebruikt. Deze methoden tonen potentie om inzicht te geven in het vermogen van een LLM om robuust te functioneren in realistischer omgevingen.
English
Large language models (LLM) have achieved impressive performance on medical
question-answering benchmarks. However, high benchmark accuracy does not imply
that the performance generalizes to real-world clinical settings. Medical
question-answering benchmarks rely on assumptions consistent with quantifying
LLM performance but that may not hold in the open world of the clinic. Yet LLMs
learn broad knowledge that can help the LLM generalize to practical conditions
regardless of unrealistic assumptions in celebrated benchmarks. We seek to
quantify how well LLM medical question-answering benchmark performance
generalizes when benchmark assumptions are violated. Specifically, we present
an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz
attempts to modify benchmark questions in ways aimed at confounding the LLM. We
demonstrate the approach by targeting strong assumptions about patient
characteristics presented in the MedQA benchmark. Successful "attacks" modify a
benchmark item in ways that would be unlikely to fool a medical expert but
nonetheless "trick" the LLM into changing from a correct to an incorrect
answer. Further, we present a permutation test technique that can ensure a
successful attack is statistically significant. We show how to use performance
on a "MedFuzzed" benchmark, as well as individual successful attacks. The
methods show promise at providing insights into the ability of an LLM to
operate robustly in more realistic settings.