Medische grote taalmodellen raken gemakkelijk afgeleid.
Medical large language models are easily distracted
April 1, 2025
Auteurs: Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben het potentieel om de geneeskunde te transformeren, maar realistische klinische scenario's bevatten overbodige informatie die de prestaties kan belemmeren. De opkomst van ondersteunende technologieën zoals ambient dictation, die automatisch conceptnotities genereert uit live patiëntencasussen, kan extra ruis introduceren, waardoor het cruciaal is om het vermogen van LLM's om relevante data te filteren te beoordelen. Om dit te onderzoeken, hebben we MedDistractQA ontwikkeld, een benchmark die gebruikmaakt van USMLE-stijl vragen verweven met gesimuleerde realistische afleidingen. Onze bevindingen tonen aan dat afleidende uitspraken (polyseme woorden met klinische betekenissen die in een niet-klinische context worden gebruikt of verwijzingen naar niet-gerelateerde gezondheidsproblemen) de nauwkeurigheid van LLM's met tot wel 17,9% kunnen verminderen. Veelvoorgestelde oplossingen om modelprestaties te verbeteren, zoals retrieval-augmented generation (RAG) en medische fine-tuning, veranderden dit effect niet en introduceerden in sommige gevallen zelfs hun eigen verstorende factoren en verslechterden de prestaties verder. Onze bevindingen suggereren dat LLM's van nature de logische mechanismen missen die nodig zijn om relevante van irrelevante klinische informatie te onderscheiden, wat uitdagingen oplevert voor realistische toepassingen. MedDistractQA en onze resultaten benadrukken de noodzaak van robuuste mitigatiestrategieën om de veerkracht van LLM's tegen overbodige informatie te vergroten.
English
Large language models (LLMs) have the potential to transform medicine, but
real-world clinical scenarios contain extraneous information that can hinder
performance. The rise of assistive technologies like ambient dictation, which
automatically generates draft notes from live patient encounters, has the
potential to introduce additional noise making it crucial to assess the ability
of LLM's to filter relevant data. To investigate this, we developed
MedDistractQA, a benchmark using USMLE-style questions embedded with simulated
real-world distractions. Our findings show that distracting statements
(polysemous words with clinical meanings used in a non-clinical context or
references to unrelated health conditions) can reduce LLM accuracy by up to
17.9%. Commonly proposed solutions to improve model performance such as
retrieval-augmented generation (RAG) and medical fine-tuning did not change
this effect and in some cases introduced their own confounders and further
degraded performance. Our findings suggest that LLMs natively lack the logical
mechanisms necessary to distinguish relevant from irrelevant clinical
information, posing challenges for real-world applications. MedDistractQA and
our results highlights the need for robust mitigation strategies to enhance LLM
resilience to extraneous information.Summary
AI-Generated Summary