ChatPaper.aiChatPaper

Sprachmodelle sind erstaunlich anfällig für Medikamentennamen in biomedizinischen Benchmarks.

Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

June 17, 2024
Autoren: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman
cs.AI

Zusammenfassung

Medizinisches Wissen ist kontextabhängig und erfordert konsistentes Argumentieren über verschiedene natürlichsprachliche Ausdrücke semantisch äquivalenter Phrasen. Dies ist besonders wichtig für Arzneimittelnamen, da Patienten oft Markennamen wie Advil oder Tylenol anstelle ihrer generischen Äquivalente verwenden. Um dies zu untersuchen, haben wir einen neuen robusten Datensatz namens RABBITS erstellt, um Leistungsunterschiede bei medizinischen Benchmarks nach dem Austausch von Marken- und generischen Arzneimittelnamen mithilfe von Expertenannotationen von Ärzten zu bewerten. Wir bewerten sowohl Open-Source- als auch API-basierte LLMs in MedQA und MedMCQA und zeigen eine konsistente Leistungseinbuße von 1-10\%. Darüber hinaus identifizieren wir eine potenzielle Ursache dieser Fragilität als die Kontamination von Testdaten in weit verbreiteten Vortrainingsdatensätzen. Der gesamte Code ist unter https://github.com/BittermanLab/RABBITS verfügbar, und ein HuggingFace-Leaderboard ist unter https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard abrufbar.
English
Medical knowledge is context-dependent and requires consistent reasoning across various natural language expressions of semantically equivalent phrases. This is particularly crucial for drug names, where patients often use brand names like Advil or Tylenol instead of their generic equivalents. To study this, we create a new robustness dataset, RABBITS, to evaluate performance differences on medical benchmarks after swapping brand and generic drug names using physician expert annotations. We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing a consistent performance drop ranging from 1-10\%. Furthermore, we identify a potential source of this fragility as the contamination of test data in widely used pre-training datasets. All code is accessible at https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.

Summary

AI-Generated Summary

PDF81December 4, 2024