MedFuzz: Исследование устойчивости крупных языковых моделей в медицинском вопросно-ответном формате
MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering
June 3, 2024
Авторы: Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz
cs.AI
Аннотация
Большие языковые модели (LLM) достигли впечатляющих результатов на медицинских тестах вопросов и ответов. Однако высокая точность тестов не означает, что результаты обобщаются на реальные клинические условия. Медицинские тесты вопросов и ответов основаны на предположениях, соответствующих количественной оценке производительности LLM, но которые могут не соблюдаться в открытом мире клиники. Тем не менее LLM изучают широкие знания, которые могут помочь LLM обобщить на практические условия независимо от нереалистичных предположений в известных тестах. Мы стремимся количественно оценить, насколько хорошо производительность медицинских тестов вопросов и ответов LLM обобщается, когда предположения теста нарушаются. Конкретно, мы представляем атакующий метод, который мы называем MedFuzz (для медицинского фаззинга). MedFuzz пытается изменить вопросы теста таким образом, чтобы запутать LLM. Мы демонстрируем подход, направленный на сильные предположения о характеристиках пациентов, представленных в тесте MedQA. Успешные "атаки" изменяют элемент теста таким образом, что это маловероятно смогло бы обмануть медицинского эксперта, но тем не менее "обманывают" LLM, заставляя его изменить правильный ответ на неправильный. Кроме того, мы представляем метод перестановки, который может гарантировать, что успешная атака является статистически значимой. Мы показываем, как использовать производительность на "MedFuzzed" тесте, а также отдельные успешные атаки. Эти методы обещают дать понимание способности LLM работать надежно в более реалистичных условиях.
English
Large language models (LLM) have achieved impressive performance on medical
question-answering benchmarks. However, high benchmark accuracy does not imply
that the performance generalizes to real-world clinical settings. Medical
question-answering benchmarks rely on assumptions consistent with quantifying
LLM performance but that may not hold in the open world of the clinic. Yet LLMs
learn broad knowledge that can help the LLM generalize to practical conditions
regardless of unrealistic assumptions in celebrated benchmarks. We seek to
quantify how well LLM medical question-answering benchmark performance
generalizes when benchmark assumptions are violated. Specifically, we present
an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz
attempts to modify benchmark questions in ways aimed at confounding the LLM. We
demonstrate the approach by targeting strong assumptions about patient
characteristics presented in the MedQA benchmark. Successful "attacks" modify a
benchmark item in ways that would be unlikely to fool a medical expert but
nonetheless "trick" the LLM into changing from a correct to an incorrect
answer. Further, we present a permutation test technique that can ensure a
successful attack is statistically significant. We show how to use performance
on a "MedFuzzed" benchmark, as well as individual successful attacks. The
methods show promise at providing insights into the ability of an LLM to
operate robustly in more realistic settings.Summary
AI-Generated Summary