Los modelos de lenguaje grande en el ámbito médico se distraen con facilidad.
Medical large language models are easily distracted
April 1, 2025
Autores: Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) tienen el potencial de transformar la medicina, pero los escenarios clínicos del mundo real contienen información irrelevante que puede afectar su rendimiento. El auge de tecnologías asistenciales como la dictación ambiental, que genera automáticamente borradores de notas a partir de encuentros con pacientes en tiempo real, tiene el potencial de introducir ruido adicional, lo que hace crucial evaluar la capacidad de los LLMs para filtrar datos relevantes. Para investigar esto, desarrollamos MedDistractQA, un punto de referencia que utiliza preguntas al estilo del USMLE (Examen de Licencia Médica de los Estados Unidos) integradas con distracciones simuladas del mundo real. Nuestros hallazgos muestran que las declaraciones distractoras (palabras polisémicas con significados clínicos utilizadas en un contexto no clínico o referencias a condiciones de salud no relacionadas) pueden reducir la precisión de los LLMs hasta en un 17,9%. Soluciones comúnmente propuestas para mejorar el rendimiento del modelo, como la generación aumentada con recuperación (RAG, por sus siglas en inglés) y el ajuste fino médico, no cambiaron este efecto y, en algunos casos, introdujeron sus propios factores de confusión y degradaron aún más el rendimiento. Nuestros hallazgos sugieren que los LLMs carecen de manera nativa de los mecanismos lógicos necesarios para distinguir la información clínica relevante de la irrelevante, lo que plantea desafíos para las aplicaciones en el mundo real. MedDistractQA y nuestros resultados destacan la necesidad de estrategias de mitigación robustas para mejorar la resiliencia de los LLMs frente a la información irrelevante.
English
Large language models (LLMs) have the potential to transform medicine, but
real-world clinical scenarios contain extraneous information that can hinder
performance. The rise of assistive technologies like ambient dictation, which
automatically generates draft notes from live patient encounters, has the
potential to introduce additional noise making it crucial to assess the ability
of LLM's to filter relevant data. To investigate this, we developed
MedDistractQA, a benchmark using USMLE-style questions embedded with simulated
real-world distractions. Our findings show that distracting statements
(polysemous words with clinical meanings used in a non-clinical context or
references to unrelated health conditions) can reduce LLM accuracy by up to
17.9%. Commonly proposed solutions to improve model performance such as
retrieval-augmented generation (RAG) and medical fine-tuning did not change
this effect and in some cases introduced their own confounders and further
degraded performance. Our findings suggest that LLMs natively lack the logical
mechanisms necessary to distinguish relevant from irrelevant clinical
information, posing challenges for real-world applications. MedDistractQA and
our results highlights the need for robust mitigation strategies to enhance LLM
resilience to extraneous information.Summary
AI-Generated Summary