Los Modelos de Lenguaje son Sorprendentemente Frágiles ante los Nombres de Medicamentos en Evaluaciones Biomédicas
Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks
June 17, 2024
Autores: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman
cs.AI
Resumen
El conocimiento médico depende del contexto y requiere un razonamiento consistente
a través de diversas expresiones en lenguaje natural de frases semánticamente equivalentes.
Esto es particularmente crucial para los nombres de medicamentos, donde los pacientes suelen utilizar
nombres comerciales como Advil o Tylenol en lugar de sus equivalentes genéricos. Para estudiar
esto, creamos un nuevo conjunto de datos de robustez, RABBITS, para evaluar las diferencias de rendimiento
en benchmarks médicos tras intercambiar nombres comerciales y genéricos de medicamentos
utilizando anotaciones expertas de médicos.
Evaluamos tanto modelos de lenguaje de código abierto como basados en API en MedQA y MedMCQA, revelando
una caída consistente en el rendimiento que oscila entre el 1 y el 10\%. Además, identificamos una
posible fuente de esta fragilidad como la contaminación de datos de prueba en conjuntos de datos de
preentrenamiento ampliamente utilizados. Todo el código está accesible en
https://github.com/BittermanLab/RABBITS, y un leaderboard de HuggingFace está
disponible en https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
English
Medical knowledge is context-dependent and requires consistent reasoning
across various natural language expressions of semantically equivalent phrases.
This is particularly crucial for drug names, where patients often use brand
names like Advil or Tylenol instead of their generic equivalents. To study
this, we create a new robustness dataset, RABBITS, to evaluate performance
differences on medical benchmarks after swapping brand and generic drug names
using physician expert annotations.
We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing
a consistent performance drop ranging from 1-10\%. Furthermore, we identify a
potential source of this fragility as the contamination of test data in widely
used pre-training datasets. All code is accessible at
https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is
available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.Summary
AI-Generated Summary