MedFuzz: Исследование устойчивости крупных языковых моделей в медицинском вопросно-ответном формате

Аннотация

Большие языковые модели (LLM) достигли впечатляющих результатов на медицинских тестах вопросов и ответов. Однако высокая точность тестов не означает, что результаты обобщаются на реальные клинические условия. Медицинские тесты вопросов и ответов основаны на предположениях, соответствующих количественной оценке производительности LLM, но которые могут не соблюдаться в открытом мире клиники. Тем не менее LLM изучают широкие знания, которые могут помочь LLM обобщить на практические условия независимо от нереалистичных предположений в известных тестах. Мы стремимся количественно оценить, насколько хорошо производительность медицинских тестов вопросов и ответов LLM обобщается, когда предположения теста нарушаются. Конкретно, мы представляем атакующий метод, который мы называем MedFuzz (для медицинского фаззинга). MedFuzz пытается изменить вопросы теста таким образом, чтобы запутать LLM. Мы демонстрируем подход, направленный на сильные предположения о характеристиках пациентов, представленных в тесте MedQA. Успешные "атаки" изменяют элемент теста таким образом, что это маловероятно смогло бы обмануть медицинского эксперта, но тем не менее "обманывают" LLM, заставляя его изменить правильный ответ на неправильный. Кроме того, мы представляем метод перестановки, который может гарантировать, что успешная атака является статистически значимой. Мы показываем, как использовать производительность на "MedFuzzed" тесте, а также отдельные успешные атаки. Эти методы обещают дать понимание способности LLM работать надежно в более реалистичных условиях.

English

Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quantifying LLM performance but that may not hold in the open world of the clinic. Yet LLMs learn broad knowledge that can help the LLM generalize to practical conditions regardless of unrealistic assumptions in celebrated benchmarks. We seek to quantify how well LLM medical question-answering benchmark performance generalizes when benchmark assumptions are violated. Specifically, we present an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz attempts to modify benchmark questions in ways aimed at confounding the LLM. We demonstrate the approach by targeting strong assumptions about patient characteristics presented in the MedQA benchmark. Successful "attacks" modify a benchmark item in ways that would be unlikely to fool a medical expert but nonetheless "trick" the LLM into changing from a correct to an incorrect answer. Further, we present a permutation test technique that can ensure a successful attack is statistically significant. We show how to use performance on a "MedFuzzed" benchmark, as well as individual successful attacks. The methods show promise at providing insights into the ability of an LLM to operate robustly in more realistic settings.

MedFuzz: Исследование устойчивости крупных языковых моделей в медицинском вопросно-ответном формате

MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering

Аннотация

Support