El conocimiento clínico en los LLM no se traduce en interacciones humanas.
Clinical knowledge in LLMs does not translate to human interactions
April 26, 2025
Autores: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
cs.AI
Resumen
Los proveedores globales de atención médica están explorando el uso de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para ofrecer asesoramiento médico al público. Actualmente, los LLMs obtienen puntuaciones casi perfectas en los exámenes de licenciatura médica, pero esto no necesariamente se traduce en un desempeño preciso en entornos del mundo real. Evaluamos si los LLMs pueden ayudar a miembros del público a identificar condiciones subyacentes y elegir un curso de acción (disposición) en diez escenarios médicos, en un estudio controlado con 1.298 participantes. Los participantes fueron asignados aleatoriamente para recibir asistencia de un LLM (GPT-4o, Llama 3, Command R+) o de una fuente de su elección (grupo de control). Cuando se probaron de forma independiente, los LLMs completaron los escenarios con precisión, identificando correctamente las condiciones en el 94,9% de los casos y la disposición en el 56,3% en promedio. Sin embargo, los participantes que utilizaron los mismos LLMs identificaron condiciones relevantes en menos del 34,5% de los casos y la disposición en menos del 44,2%, resultados que no superaron al grupo de control. Identificamos las interacciones con los usuarios como un desafío para la implementación de LLMs en el asesoramiento médico. Los puntos de referencia estándar para el conocimiento médico y las interacciones simuladas con pacientes no predicen los fallos que encontramos con participantes humanos. De cara al futuro, recomendamos pruebas sistemáticas con usuarios humanos para evaluar las capacidades interactivas antes de implementaciones públicas en el ámbito de la salud.
English
Global healthcare providers are exploring use of large language models (LLMs)
to provide medical advice to the public. LLMs now achieve nearly perfect scores
on medical licensing exams, but this does not necessarily translate to accurate
performance in real-world settings. We tested if LLMs can assist members of the
public in identifying underlying conditions and choosing a course of action
(disposition) in ten medical scenarios in a controlled study with 1,298
participants. Participants were randomly assigned to receive assistance from an
LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested
alone, LLMs complete the scenarios accurately, correctly identifying conditions
in 94.9% of cases and disposition in 56.3% on average. However, participants
using the same LLMs identified relevant conditions in less than 34.5% of cases
and disposition in less than 44.2%, both no better than the control group. We
identify user interactions as a challenge to the deployment of LLMs for medical
advice. Standard benchmarks for medical knowledge and simulated patient
interactions do not predict the failures we find with human participants.
Moving forward, we recommend systematic human user testing to evaluate
interactive capabilities prior to public deployments in healthcare.Summary
AI-Generated Summary