I Modelli Linguistici Sono Sorprendentemente Fragili ai Nomi dei Farmaci nei Benchmark Biomedici
Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks
June 17, 2024
Autori: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman
cs.AI
Abstract
La conoscenza medica è contestuale e richiede un ragionamento coerente
attraverso varie espressioni linguistiche naturali di frasi semanticamente equivalenti.
Questo è particolarmente cruciale per i nomi dei farmaci, dove i pazienti spesso utilizzano
nomi commerciali come Advil o Tylenol invece dei loro equivalenti generici. Per studiare
questo fenomeno, abbiamo creato un nuovo dataset di robustezza, RABBITS, per valutare le
differenze di prestazione su benchmark medici dopo aver sostituito i nomi commerciali e
generici dei farmaci utilizzando annotazioni di esperti medici.
Abbiamo valutato sia modelli linguistici open-source che basati su API su MedQA e MedMCQA,
rivelando un calo costante delle prestazioni compreso tra l'1 e il 10\%. Inoltre, abbiamo
identificato una potenziale fonte di questa fragilità nella contaminazione dei dati di test
nei dataset di pre-addestramento ampiamente utilizzati. Tutto il codice è accessibile su
https://github.com/BittermanLab/RABBITS, e una classifica HuggingFace è disponibile su
https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
English
Medical knowledge is context-dependent and requires consistent reasoning
across various natural language expressions of semantically equivalent phrases.
This is particularly crucial for drug names, where patients often use brand
names like Advil or Tylenol instead of their generic equivalents. To study
this, we create a new robustness dataset, RABBITS, to evaluate performance
differences on medical benchmarks after swapping brand and generic drug names
using physician expert annotations.
We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing
a consistent performance drop ranging from 1-10\%. Furthermore, we identify a
potential source of this fragility as the contamination of test data in widely
used pre-training datasets. All code is accessible at
https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is
available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.