ChatPaper.aiChatPaper

Los Modelos de Lenguaje son Sorprendentemente Frágiles ante los Nombres de Medicamentos en Evaluaciones Biomédicas

Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

June 17, 2024
Autores: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman
cs.AI

Resumen

El conocimiento médico depende del contexto y requiere un razonamiento consistente a través de diversas expresiones en lenguaje natural de frases semánticamente equivalentes. Esto es particularmente crucial para los nombres de medicamentos, donde los pacientes suelen utilizar nombres comerciales como Advil o Tylenol en lugar de sus equivalentes genéricos. Para estudiar esto, creamos un nuevo conjunto de datos de robustez, RABBITS, para evaluar las diferencias de rendimiento en benchmarks médicos tras intercambiar nombres comerciales y genéricos de medicamentos utilizando anotaciones expertas de médicos. Evaluamos tanto modelos de lenguaje de código abierto como basados en API en MedQA y MedMCQA, revelando una caída consistente en el rendimiento que oscila entre el 1 y el 10\%. Además, identificamos una posible fuente de esta fragilidad como la contaminación de datos de prueba en conjuntos de datos de preentrenamiento ampliamente utilizados. Todo el código está accesible en https://github.com/BittermanLab/RABBITS, y un leaderboard de HuggingFace está disponible en https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
English
Medical knowledge is context-dependent and requires consistent reasoning across various natural language expressions of semantically equivalent phrases. This is particularly crucial for drug names, where patients often use brand names like Advil or Tylenol instead of their generic equivalents. To study this, we create a new robustness dataset, RABBITS, to evaluate performance differences on medical benchmarks after swapping brand and generic drug names using physician expert annotations. We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing a consistent performance drop ranging from 1-10\%. Furthermore, we identify a potential source of this fragility as the contamination of test data in widely used pre-training datasets. All code is accessible at https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.

Summary

AI-Generated Summary

PDF81December 4, 2024