ChatPaper.aiChatPaper

I Modelli Linguistici Sono Sorprendentemente Fragili ai Nomi dei Farmaci nei Benchmark Biomedici

Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

June 17, 2024
Autori: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman
cs.AI

Abstract

La conoscenza medica è contestuale e richiede un ragionamento coerente attraverso varie espressioni linguistiche naturali di frasi semanticamente equivalenti. Questo è particolarmente cruciale per i nomi dei farmaci, dove i pazienti spesso utilizzano nomi commerciali come Advil o Tylenol invece dei loro equivalenti generici. Per studiare questo fenomeno, abbiamo creato un nuovo dataset di robustezza, RABBITS, per valutare le differenze di prestazione su benchmark medici dopo aver sostituito i nomi commerciali e generici dei farmaci utilizzando annotazioni di esperti medici. Abbiamo valutato sia modelli linguistici open-source che basati su API su MedQA e MedMCQA, rivelando un calo costante delle prestazioni compreso tra l'1 e il 10\%. Inoltre, abbiamo identificato una potenziale fonte di questa fragilità nella contaminazione dei dati di test nei dataset di pre-addestramento ampiamente utilizzati. Tutto il codice è accessibile su https://github.com/BittermanLab/RABBITS, e una classifica HuggingFace è disponibile su https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
English
Medical knowledge is context-dependent and requires consistent reasoning across various natural language expressions of semantically equivalent phrases. This is particularly crucial for drug names, where patients often use brand names like Advil or Tylenol instead of their generic equivalents. To study this, we create a new robustness dataset, RABBITS, to evaluate performance differences on medical benchmarks after swapping brand and generic drug names using physician expert annotations. We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing a consistent performance drop ranging from 1-10\%. Furthermore, we identify a potential source of this fragility as the contamination of test data in widely used pre-training datasets. All code is accessible at https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
PDF81February 7, 2026