Taalmodellen zijn verrassend kwetsbaar voor medicijnnamen in biomedische benchmarks.
Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks
June 17, 2024
Auteurs: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman
cs.AI
Samenvatting
Medische kennis is contextafhankelijk en vereist consistent redeneren
over verschillende natuurlijke taaluitdrukkingen van semantisch equivalente zinnen.
Dit is vooral cruciaal voor medicijnnamen, waar patiënten vaak merknamen
zoals Advil of Tylenol gebruiken in plaats van hun generieke equivalenten. Om dit te onderzoeken,
creëren we een nieuwe robuustheidsdataset, RABBITS, om prestatieverschillen
op medische benchmarks te evalueren na het uitwisselen van merk- en generieke medicijnnamen
met behulp van annotaties door medische experts.
We beoordelen zowel open-source als API-gebaseerde LLM's op MedQA en MedMCQA, wat
een consistent prestatieverlies van 1-10\% aan het licht brengt. Bovendien identificeren we
een mogelijke bron van deze kwetsbaarheid als de besmetting van testgegevens in veelgebruikte
pre-trainingsdatasets. Alle code is toegankelijk op
https://github.com/BittermanLab/RABBITS, en een HuggingFace leaderboard is
beschikbaar op https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
English
Medical knowledge is context-dependent and requires consistent reasoning
across various natural language expressions of semantically equivalent phrases.
This is particularly crucial for drug names, where patients often use brand
names like Advil or Tylenol instead of their generic equivalents. To study
this, we create a new robustness dataset, RABBITS, to evaluate performance
differences on medical benchmarks after swapping brand and generic drug names
using physician expert annotations.
We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing
a consistent performance drop ranging from 1-10\%. Furthermore, we identify a
potential source of this fragility as the contamination of test data in widely
used pre-training datasets. All code is accessible at
https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is
available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.