ChatPaper.aiChatPaper

Les modèles de langage sont étonnamment fragiles face aux noms de médicaments dans les benchmarks biomédicaux.

Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

June 17, 2024
Auteurs: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman
cs.AI

Résumé

Les connaissances médicales dépendent du contexte et nécessitent un raisonnement cohérent à travers diverses expressions linguistiques de phrases sémantiquement équivalentes. Ceci est particulièrement crucial pour les noms de médicaments, où les patients utilisent souvent des noms de marque comme Advil ou Tylenol plutôt que leurs équivalents génériques. Pour étudier cela, nous créons un nouveau jeu de données de robustesse, RABBITS, afin d'évaluer les différences de performance sur des benchmarks médicaux après avoir échangé les noms de marque et génériques des médicaments en utilisant des annotations expertes de médecins. Nous évaluons à la fois des modèles de langage open-source et basés sur des API sur MedQA et MedMCQA, révélant une baisse de performance constante allant de 1 à 10 %. De plus, nous identifions une source potentielle de cette fragilité comme étant la contamination des données de test dans les ensembles de données de pré-entraînement largement utilisés. Tout le code est accessible à l'adresse https://github.com/BittermanLab/RABBITS, et un classement HuggingFace est disponible à l'adresse https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
English
Medical knowledge is context-dependent and requires consistent reasoning across various natural language expressions of semantically equivalent phrases. This is particularly crucial for drug names, where patients often use brand names like Advil or Tylenol instead of their generic equivalents. To study this, we create a new robustness dataset, RABBITS, to evaluate performance differences on medical benchmarks after swapping brand and generic drug names using physician expert annotations. We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing a consistent performance drop ranging from 1-10\%. Furthermore, we identify a potential source of this fragility as the contamination of test data in widely used pre-training datasets. All code is accessible at https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.

Summary

AI-Generated Summary

PDF81December 4, 2024