Modelos de Linguagem são Surpreendentemente Frágeis a Nomes de Medicamentos em Benchmarks Biomédicos
Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks
June 17, 2024
Autores: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman
cs.AI
Resumo
O conhecimento médico é dependente do contexto e requer raciocínio consistente
em diversas expressões linguísticas de frases semanticamente equivalentes.
Isso é particularmente crucial para os nomes de medicamentos, onde os pacientes
frequentemente usam nomes comerciais como Advil ou Tylenol em vez de seus
equivalentes genéricos. Para estudar isso, criamos um novo conjunto de dados de
robustez, RABBITS, para avaliar diferenças de desempenho em benchmarks médicos
após a substituição de nomes comerciais e genéricos de medicamentos usando
anotações de especialistas médicos.
Avaliamos tanto modelos de linguagem de código aberto quanto baseados em API
no MedQA e MedMCQA, revelando uma queda consistente no desempenho variando de
1 a 10\%. Além disso, identificamos uma possível fonte dessa fragilidade como
a contaminação de dados de teste em conjuntos de dados de pré-treinamento amplamente
utilizados. Todo o código está acessível em
https://github.com/BittermanLab/RABBITS, e um leaderboard no HuggingFace está
disponível em https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
English
Medical knowledge is context-dependent and requires consistent reasoning
across various natural language expressions of semantically equivalent phrases.
This is particularly crucial for drug names, where patients often use brand
names like Advil or Tylenol instead of their generic equivalents. To study
this, we create a new robustness dataset, RABBITS, to evaluate performance
differences on medical benchmarks after swapping brand and generic drug names
using physician expert annotations.
We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing
a consistent performance drop ranging from 1-10\%. Furthermore, we identify a
potential source of this fragility as the contamination of test data in widely
used pre-training datasets. All code is accessible at
https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is
available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.