Les grands modèles de langage médicaux sont facilement distraits.

papers.abstract

Les grands modèles de langage (LLM) ont le potentiel de transformer la médecine, mais les scénarios cliniques réels contiennent des informations superflues qui peuvent nuire à leurs performances. L'émergence de technologies d'assistance comme la dictation ambiante, qui génère automatiquement des notes préliminaires à partir des interactions en direct avec les patients, risque d'introduire un bruit supplémentaire, rendant cruciale l'évaluation de la capacité des LLM à filtrer les données pertinentes. Pour étudier cela, nous avons développé MedDistractQA, un benchmark utilisant des questions de style USMLE intégrant des distractions simulées issues du monde réel. Nos résultats montrent que les déclarations distrayantes (mots polysémiques ayant des significations cliniques utilisés dans un contexte non clinique ou des références à des problèmes de santé non liés) peuvent réduire la précision des LLM jusqu'à 17,9 %. Les solutions couramment proposées pour améliorer les performances des modèles, telles que la génération augmentée par récupération (RAG) et l'affinage médical, n'ont pas modifié cet effet et, dans certains cas, ont introduit leurs propres facteurs de confusion, dégradant encore davantage les performances. Nos résultats suggèrent que les LLM manquent intrinsèquement des mécanismes logiques nécessaires pour distinguer les informations cliniques pertinentes des informations non pertinentes, posant des défis pour les applications réelles. MedDistractQA et nos résultats mettent en évidence la nécessité de stratégies de mitigation robustes pour renforcer la résilience des LLM face aux informations superflues.

English

Large language models (LLMs) have the potential to transform medicine, but real-world clinical scenarios contain extraneous information that can hinder performance. The rise of assistive technologies like ambient dictation, which automatically generates draft notes from live patient encounters, has the potential to introduce additional noise making it crucial to assess the ability of LLM's to filter relevant data. To investigate this, we developed MedDistractQA, a benchmark using USMLE-style questions embedded with simulated real-world distractions. Our findings show that distracting statements (polysemous words with clinical meanings used in a non-clinical context or references to unrelated health conditions) can reduce LLM accuracy by up to 17.9%. Commonly proposed solutions to improve model performance such as retrieval-augmented generation (RAG) and medical fine-tuning did not change this effect and in some cases introduced their own confounders and further degraded performance. Our findings suggest that LLMs natively lack the logical mechanisms necessary to distinguish relevant from irrelevant clinical information, posing challenges for real-world applications. MedDistractQA and our results highlights the need for robust mitigation strategies to enhance LLM resilience to extraneous information.

Les grands modèles de langage médicaux sont facilement distraits.

Medical large language models are easily distracted

papers.abstract

Support