ChatPaper.aiChatPaper

Taalmodellen zijn verrassend kwetsbaar voor medicijnnamen in biomedische benchmarks.

Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

June 17, 2024
Auteurs: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman
cs.AI

Samenvatting

Medische kennis is contextafhankelijk en vereist consistent redeneren over verschillende natuurlijke taaluitdrukkingen van semantisch equivalente zinnen. Dit is vooral cruciaal voor medicijnnamen, waar patiënten vaak merknamen zoals Advil of Tylenol gebruiken in plaats van hun generieke equivalenten. Om dit te onderzoeken, creëren we een nieuwe robuustheidsdataset, RABBITS, om prestatieverschillen op medische benchmarks te evalueren na het uitwisselen van merk- en generieke medicijnnamen met behulp van annotaties door medische experts. We beoordelen zowel open-source als API-gebaseerde LLM's op MedQA en MedMCQA, wat een consistent prestatieverlies van 1-10\% aan het licht brengt. Bovendien identificeren we een mogelijke bron van deze kwetsbaarheid als de besmetting van testgegevens in veelgebruikte pre-trainingsdatasets. Alle code is toegankelijk op https://github.com/BittermanLab/RABBITS, en een HuggingFace leaderboard is beschikbaar op https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
English
Medical knowledge is context-dependent and requires consistent reasoning across various natural language expressions of semantically equivalent phrases. This is particularly crucial for drug names, where patients often use brand names like Advil or Tylenol instead of their generic equivalents. To study this, we create a new robustness dataset, RABBITS, to evaluate performance differences on medical benchmarks after swapping brand and generic drug names using physician expert annotations. We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing a consistent performance drop ranging from 1-10\%. Furthermore, we identify a potential source of this fragility as the contamination of test data in widely used pre-training datasets. All code is accessible at https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
PDF81February 7, 2026