MedFuzz : Exploration de la robustesse des grands modèles de langage dans le domaine des questions-réponses médicales
MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering
June 3, 2024
Auteurs: Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz
cs.AI
Résumé
Les grands modèles de langage (LLM) ont obtenu des performances impressionnantes sur les benchmarks de questions-réponses médicales. Cependant, une précision élevée sur ces benchmarks ne signifie pas que les performances se généralisent aux contextes cliniques réels. Les benchmarks de questions-réponses médicales reposent sur des hypothèses cohérentes avec la quantification des performances des LLM, mais qui peuvent ne pas tenir dans le monde ouvert de la clinique. Pourtant, les LLM acquièrent des connaissances étendues qui peuvent les aider à généraliser à des conditions pratiques, indépendamment des hypothèses irréalistes des benchmarks célèbres. Nous cherchons à quantifier dans quelle mesure les performances des LLM sur les benchmarks de questions-réponses médicales se généralisent lorsque les hypothèses des benchmarks sont violées. Plus précisément, nous présentons une méthode antagoniste que nous appelons MedFuzz (pour "medical fuzzing"). MedFuzz tente de modifier les questions des benchmarks de manière à dérouter le LLM. Nous démontrons cette approche en ciblant les hypothèses fortes sur les caractéristiques des patients présentées dans le benchmark MedQA. Les "attaques" réussies modifient un élément du benchmark de manière à ne pas tromper un expert médical, mais à "piéger" le LLM pour qu'il passe d'une réponse correcte à une réponse incorrecte. De plus, nous présentons une technique de test de permutation qui peut garantir qu'une attaque réussie est statistiquement significative. Nous montrons comment utiliser les performances sur un benchmark "MedFuzzé", ainsi que les attaques individuelles réussies. Ces méthodes promettent de fournir des insights sur la capacité d'un LLM à fonctionner de manière robuste dans des contextes plus réalistes.
English
Large language models (LLM) have achieved impressive performance on medical
question-answering benchmarks. However, high benchmark accuracy does not imply
that the performance generalizes to real-world clinical settings. Medical
question-answering benchmarks rely on assumptions consistent with quantifying
LLM performance but that may not hold in the open world of the clinic. Yet LLMs
learn broad knowledge that can help the LLM generalize to practical conditions
regardless of unrealistic assumptions in celebrated benchmarks. We seek to
quantify how well LLM medical question-answering benchmark performance
generalizes when benchmark assumptions are violated. Specifically, we present
an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz
attempts to modify benchmark questions in ways aimed at confounding the LLM. We
demonstrate the approach by targeting strong assumptions about patient
characteristics presented in the MedQA benchmark. Successful "attacks" modify a
benchmark item in ways that would be unlikely to fool a medical expert but
nonetheless "trick" the LLM into changing from a correct to an incorrect
answer. Further, we present a permutation test technique that can ensure a
successful attack is statistically significant. We show how to use performance
on a "MedFuzzed" benchmark, as well as individual successful attacks. The
methods show promise at providing insights into the ability of an LLM to
operate robustly in more realistic settings.Summary
AI-Generated Summary