ChatPaper.aiChatPaper

MedFuzz : Exploration de la robustesse des grands modèles de langage dans le domaine des questions-réponses médicales

MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering

June 3, 2024
Auteurs: Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz
cs.AI

Résumé

Les grands modèles de langage (LLM) ont obtenu des performances impressionnantes sur les benchmarks de questions-réponses médicales. Cependant, une précision élevée sur ces benchmarks ne signifie pas que les performances se généralisent aux contextes cliniques réels. Les benchmarks de questions-réponses médicales reposent sur des hypothèses cohérentes avec la quantification des performances des LLM, mais qui peuvent ne pas tenir dans le monde ouvert de la clinique. Pourtant, les LLM acquièrent des connaissances étendues qui peuvent les aider à généraliser à des conditions pratiques, indépendamment des hypothèses irréalistes des benchmarks célèbres. Nous cherchons à quantifier dans quelle mesure les performances des LLM sur les benchmarks de questions-réponses médicales se généralisent lorsque les hypothèses des benchmarks sont violées. Plus précisément, nous présentons une méthode antagoniste que nous appelons MedFuzz (pour "medical fuzzing"). MedFuzz tente de modifier les questions des benchmarks de manière à dérouter le LLM. Nous démontrons cette approche en ciblant les hypothèses fortes sur les caractéristiques des patients présentées dans le benchmark MedQA. Les "attaques" réussies modifient un élément du benchmark de manière à ne pas tromper un expert médical, mais à "piéger" le LLM pour qu'il passe d'une réponse correcte à une réponse incorrecte. De plus, nous présentons une technique de test de permutation qui peut garantir qu'une attaque réussie est statistiquement significative. Nous montrons comment utiliser les performances sur un benchmark "MedFuzzé", ainsi que les attaques individuelles réussies. Ces méthodes promettent de fournir des insights sur la capacité d'un LLM à fonctionner de manière robuste dans des contextes plus réalistes.
English
Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quantifying LLM performance but that may not hold in the open world of the clinic. Yet LLMs learn broad knowledge that can help the LLM generalize to practical conditions regardless of unrealistic assumptions in celebrated benchmarks. We seek to quantify how well LLM medical question-answering benchmark performance generalizes when benchmark assumptions are violated. Specifically, we present an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz attempts to modify benchmark questions in ways aimed at confounding the LLM. We demonstrate the approach by targeting strong assumptions about patient characteristics presented in the MedQA benchmark. Successful "attacks" modify a benchmark item in ways that would be unlikely to fool a medical expert but nonetheless "trick" the LLM into changing from a correct to an incorrect answer. Further, we present a permutation test technique that can ensure a successful attack is statistically significant. We show how to use performance on a "MedFuzzed" benchmark, as well as individual successful attacks. The methods show promise at providing insights into the ability of an LLM to operate robustly in more realistic settings.

Summary

AI-Generated Summary

PDF110December 8, 2024