ChatPaper.aiChatPaper

Modelos de linguagem de grande escala na área médica são facilmente distraídos.

Medical large language models are easily distracted

April 1, 2025
Autores: Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) têm o potencial de transformar a medicina, mas cenários clínicos do mundo real contêm informações irrelevantes que podem prejudicar o desempenho. O surgimento de tecnologias assistivas, como a ditação ambiente, que gera automaticamente rascunhos de notas a partir de encontros com pacientes em tempo real, tem o potencial de introduzir ruídos adicionais, tornando crucial avaliar a capacidade dos LLMs de filtrar dados relevantes. Para investigar isso, desenvolvemos o MedDistractQA, um benchmark que utiliza questões no estilo do USMLE incorporadas com distrações simuladas do mundo real. Nossos resultados mostram que declarações distrativas (palavras polissêmicas com significados clínicos usadas em contextos não clínicos ou referências a condições de saúde não relacionadas) podem reduzir a precisão dos LLMs em até 17,9%. Soluções comumente propostas para melhorar o desempenho do modelo, como geração aumentada por recuperação (RAG) e ajuste fino médico, não alteraram esse efeito e, em alguns casos, introduziram seus próprios fatores de confusão e degradaram ainda mais o desempenho. Nossos achados sugerem que os LLMs carecem nativamente dos mecanismos lógicos necessários para distinguir informações clínicas relevantes das irrelevantes, o que representa desafios para aplicações no mundo real. O MedDistractQA e nossos resultados destacam a necessidade de estratégias robustas de mitigação para aumentar a resiliência dos LLMs a informações irrelevantes.
English
Large language models (LLMs) have the potential to transform medicine, but real-world clinical scenarios contain extraneous information that can hinder performance. The rise of assistive technologies like ambient dictation, which automatically generates draft notes from live patient encounters, has the potential to introduce additional noise making it crucial to assess the ability of LLM's to filter relevant data. To investigate this, we developed MedDistractQA, a benchmark using USMLE-style questions embedded with simulated real-world distractions. Our findings show that distracting statements (polysemous words with clinical meanings used in a non-clinical context or references to unrelated health conditions) can reduce LLM accuracy by up to 17.9%. Commonly proposed solutions to improve model performance such as retrieval-augmented generation (RAG) and medical fine-tuning did not change this effect and in some cases introduced their own confounders and further degraded performance. Our findings suggest that LLMs natively lack the logical mechanisms necessary to distinguish relevant from irrelevant clinical information, posing challenges for real-world applications. MedDistractQA and our results highlights the need for robust mitigation strategies to enhance LLM resilience to extraneous information.

Summary

AI-Generated Summary

PDF32April 3, 2025