Les grands modèles de langage médicaux sont facilement distraits.
Medical large language models are easily distracted
April 1, 2025
Auteurs: Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann
cs.AI
Résumé
Les grands modèles de langage (LLM) ont le potentiel de transformer la médecine, mais les scénarios cliniques réels contiennent des informations superflues qui peuvent nuire à leurs performances. L'émergence de technologies d'assistance comme la dictation ambiante, qui génère automatiquement des notes préliminaires à partir des interactions en direct avec les patients, risque d'introduire un bruit supplémentaire, rendant cruciale l'évaluation de la capacité des LLM à filtrer les données pertinentes. Pour étudier cela, nous avons développé MedDistractQA, un benchmark utilisant des questions de style USMLE intégrant des distractions simulées issues du monde réel. Nos résultats montrent que les déclarations distrayantes (mots polysémiques ayant des significations cliniques utilisés dans un contexte non clinique ou des références à des problèmes de santé non liés) peuvent réduire la précision des LLM jusqu'à 17,9 %. Les solutions couramment proposées pour améliorer les performances des modèles, telles que la génération augmentée par récupération (RAG) et l'affinage médical, n'ont pas modifié cet effet et, dans certains cas, ont introduit leurs propres facteurs de confusion, dégradant encore davantage les performances. Nos résultats suggèrent que les LLM manquent intrinsèquement des mécanismes logiques nécessaires pour distinguer les informations cliniques pertinentes des informations non pertinentes, posant des défis pour les applications réelles. MedDistractQA et nos résultats mettent en évidence la nécessité de stratégies de mitigation robustes pour renforcer la résilience des LLM face aux informations superflues.
English
Large language models (LLMs) have the potential to transform medicine, but
real-world clinical scenarios contain extraneous information that can hinder
performance. The rise of assistive technologies like ambient dictation, which
automatically generates draft notes from live patient encounters, has the
potential to introduce additional noise making it crucial to assess the ability
of LLM's to filter relevant data. To investigate this, we developed
MedDistractQA, a benchmark using USMLE-style questions embedded with simulated
real-world distractions. Our findings show that distracting statements
(polysemous words with clinical meanings used in a non-clinical context or
references to unrelated health conditions) can reduce LLM accuracy by up to
17.9%. Commonly proposed solutions to improve model performance such as
retrieval-augmented generation (RAG) and medical fine-tuning did not change
this effect and in some cases introduced their own confounders and further
degraded performance. Our findings suggest that LLMs natively lack the logical
mechanisms necessary to distinguish relevant from irrelevant clinical
information, posing challenges for real-world applications. MedDistractQA and
our results highlights the need for robust mitigation strategies to enhance LLM
resilience to extraneous information.Summary
AI-Generated Summary