Языковые модели оказываются удивительно хрупкими по отношению к названиям лекарств в биомедицинских бенчмарках.
Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks
June 17, 2024
Авторы: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman
cs.AI
Аннотация
Медицинские знания зависят от контекста и требуют последовательного рассуждения
при работе с различными естественными языковыми выражениями с семантически эквивалентными фразами.
Это особенно важно для названий лекарств, поскольку пациенты часто используют торговые
наименования, такие как Advil или Tylenol, вместо их общих эквивалентов. Для изучения
этого мы создали новый набор данных для оценки надежности, RABBITS, чтобы оценить различия в производительности
на медицинских бенчмарках после замены торговых и общих названий лекарств
с использованием аннотаций экспертов-врачей.
Мы оценили как открытые, так и API-ориентированные LLM на MedQA и MedMCQA, выявив
постоянное снижение производительности на уровне от 1 до 10\%. Более того, мы выявили
потенциальный источник этой хрупкости в загрязнении тестовых данных в широко
используемых наборах данных для предварительного обучения. Весь код доступен по адресу
https://github.com/BittermanLab/RABBITS, а таблица лидеров HuggingFace доступна по адресу
https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
English
Medical knowledge is context-dependent and requires consistent reasoning
across various natural language expressions of semantically equivalent phrases.
This is particularly crucial for drug names, where patients often use brand
names like Advil or Tylenol instead of their generic equivalents. To study
this, we create a new robustness dataset, RABBITS, to evaluate performance
differences on medical benchmarks after swapping brand and generic drug names
using physician expert annotations.
We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing
a consistent performance drop ranging from 1-10\%. Furthermore, we identify a
potential source of this fragility as the contamination of test data in widely
used pre-training datasets. All code is accessible at
https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is
available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.Summary
AI-Generated Summary