ChatPaper.aiChatPaper

Medische grote taalmodellen raken gemakkelijk afgeleid.

Medical large language models are easily distracted

April 1, 2025
Auteurs: Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann
cs.AI

Samenvatting

Grote taalmodellen (LLM's) hebben het potentieel om de geneeskunde te transformeren, maar realistische klinische scenario's bevatten overbodige informatie die de prestaties kan belemmeren. De opkomst van ondersteunende technologieën zoals ambient dictation, die automatisch conceptnotities genereert uit live patiëntencasussen, kan extra ruis introduceren, waardoor het cruciaal is om het vermogen van LLM's om relevante data te filteren te beoordelen. Om dit te onderzoeken, hebben we MedDistractQA ontwikkeld, een benchmark die gebruikmaakt van USMLE-stijl vragen verweven met gesimuleerde realistische afleidingen. Onze bevindingen tonen aan dat afleidende uitspraken (polyseme woorden met klinische betekenissen die in een niet-klinische context worden gebruikt of verwijzingen naar niet-gerelateerde gezondheidsproblemen) de nauwkeurigheid van LLM's met tot wel 17,9% kunnen verminderen. Veelvoorgestelde oplossingen om modelprestaties te verbeteren, zoals retrieval-augmented generation (RAG) en medische fine-tuning, veranderden dit effect niet en introduceerden in sommige gevallen zelfs hun eigen verstorende factoren en verslechterden de prestaties verder. Onze bevindingen suggereren dat LLM's van nature de logische mechanismen missen die nodig zijn om relevante van irrelevante klinische informatie te onderscheiden, wat uitdagingen oplevert voor realistische toepassingen. MedDistractQA en onze resultaten benadrukken de noodzaak van robuuste mitigatiestrategieën om de veerkracht van LLM's tegen overbodige informatie te vergroten.
English
Large language models (LLMs) have the potential to transform medicine, but real-world clinical scenarios contain extraneous information that can hinder performance. The rise of assistive technologies like ambient dictation, which automatically generates draft notes from live patient encounters, has the potential to introduce additional noise making it crucial to assess the ability of LLM's to filter relevant data. To investigate this, we developed MedDistractQA, a benchmark using USMLE-style questions embedded with simulated real-world distractions. Our findings show that distracting statements (polysemous words with clinical meanings used in a non-clinical context or references to unrelated health conditions) can reduce LLM accuracy by up to 17.9%. Commonly proposed solutions to improve model performance such as retrieval-augmented generation (RAG) and medical fine-tuning did not change this effect and in some cases introduced their own confounders and further degraded performance. Our findings suggest that LLMs natively lack the logical mechanisms necessary to distinguish relevant from irrelevant clinical information, posing challenges for real-world applications. MedDistractQA and our results highlights the need for robust mitigation strategies to enhance LLM resilience to extraneous information.

Summary

AI-Generated Summary

PDF32April 3, 2025