MedFuzz: Onderzoek naar de robuustheid van grote taalmodellen bij het beantwoorden van medische vragen

Samenvatting

Grote taalmodellen (LLM's) hebben indrukwekkende prestaties geleverd op benchmarks voor medische vraag-antwoordtaken. Hoge nauwkeurigheid op benchmarks betekent echter niet dat deze prestaties gegeneraliseerd kunnen worden naar realistische klinische omgevingen. Benchmarks voor medische vraag-antwoordtaken zijn gebaseerd op aannames die consistent zijn met het kwantificeren van LLM-prestaties, maar die mogelijk niet standhouden in de open wereld van de kliniek. Toch leren LLM's brede kennis die kan helpen om te generaliseren naar praktische omstandigheden, ongeacht onrealistische aannames in gerenommeerde benchmarks. Wij streven ernaar te kwantificeren hoe goed de prestaties van LLM's op medische vraag-antwoordbenchmarks generaliseren wanneer benchmarkaannames worden geschonden. Specifiek presenteren we een adversariële methode die we MedFuzz noemen (voor medische fuzzing). MedFuzz probeert benchmarkvragen op manieren aan te passen die bedoeld zijn om de LLM te verwarren. We demonstreren deze aanpak door sterke aannames over patiëntkenmerken in de MedQA-benchmark aan te vallen. Succesvolle "aanvallen" wijzigen een benchmarkitem op manieren die een medisch expert waarschijnlijk niet zouden misleiden, maar desondanks de LLM "misleiden" om van een correct naar een incorrect antwoord te veranderen. Verder presenteren we een permutatietesttechniek die kan garanderen dat een succesvolle aanvaller statistisch significant is. We laten zien hoe prestaties op een "MedFuzz-gebaseerde" benchmark, evenals individuele succesvolle aanvallen, kunnen worden gebruikt. Deze methoden tonen potentie om inzicht te geven in het vermogen van een LLM om robuust te functioneren in realistischer omgevingen.

English

Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quantifying LLM performance but that may not hold in the open world of the clinic. Yet LLMs learn broad knowledge that can help the LLM generalize to practical conditions regardless of unrealistic assumptions in celebrated benchmarks. We seek to quantify how well LLM medical question-answering benchmark performance generalizes when benchmark assumptions are violated. Specifically, we present an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz attempts to modify benchmark questions in ways aimed at confounding the LLM. We demonstrate the approach by targeting strong assumptions about patient characteristics presented in the MedQA benchmark. Successful "attacks" modify a benchmark item in ways that would be unlikely to fool a medical expert but nonetheless "trick" the LLM into changing from a correct to an incorrect answer. Further, we present a permutation test technique that can ensure a successful attack is statistically significant. We show how to use performance on a "MedFuzzed" benchmark, as well as individual successful attacks. The methods show promise at providing insights into the ability of an LLM to operate robustly in more realistic settings.

MedFuzz: Onderzoek naar de robuustheid van grote taalmodellen bij het beantwoorden van medische vragen

MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering

Samenvatting

Support