La conoscenza clinica nei modelli linguistici di grandi dimensioni non si traduce in interazioni umane efficaci.
Clinical knowledge in LLMs does not translate to human interactions
April 26, 2025
Autori: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
cs.AI
Abstract
I fornitori globali di assistenza sanitaria stanno esplorando l'uso di modelli linguistici di grandi dimensioni (LLM) per fornire consulenza medica al pubblico. Gli LLM ottengono ora punteggi quasi perfetti negli esami di abilitazione medica, ma ciò non si traduce necessariamente in prestazioni accurate in contesti reali. Abbiamo testato se gli LLM possono assistere i membri del pubblico nell'identificare condizioni sottostanti e nel scegliere un corso di azione (disposizione) in dieci scenari medici in uno studio controllato con 1.298 partecipanti. I partecipanti sono stati assegnati in modo casuale a ricevere assistenza da un LLM (GPT-4o, Llama 3, Command R+) o da una fonte di loro scelta (gruppo di controllo). Testati da soli, gli LLM completano gli scenari in modo accurato, identificando correttamente le condizioni nel 94,9% dei casi e la disposizione nel 56,3% in media. Tuttavia, i partecipanti che utilizzavano gli stessi LLM hanno identificato condizioni rilevanti in meno del 34,5% dei casi e la disposizione in meno del 44,2%, entrambi risultati non migliori rispetto al gruppo di controllo. Identifichiamo le interazioni con l'utente come una sfida per l'implementazione degli LLM per la consulenza medica. I benchmark standard per la conoscenza medica e le interazioni simulate con i pazienti non prevedono i fallimenti che abbiamo riscontrato con i partecipanti umani. Andando avanti, raccomandiamo test sistematici con utenti umani per valutare le capacità interattive prima delle implementazioni pubbliche nel settore sanitario.
English
Global healthcare providers are exploring use of large language models (LLMs)
to provide medical advice to the public. LLMs now achieve nearly perfect scores
on medical licensing exams, but this does not necessarily translate to accurate
performance in real-world settings. We tested if LLMs can assist members of the
public in identifying underlying conditions and choosing a course of action
(disposition) in ten medical scenarios in a controlled study with 1,298
participants. Participants were randomly assigned to receive assistance from an
LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested
alone, LLMs complete the scenarios accurately, correctly identifying conditions
in 94.9% of cases and disposition in 56.3% on average. However, participants
using the same LLMs identified relevant conditions in less than 34.5% of cases
and disposition in less than 44.2%, both no better than the control group. We
identify user interactions as a challenge to the deployment of LLMs for medical
advice. Standard benchmarks for medical knowledge and simulated patient
interactions do not predict the failures we find with human participants.
Moving forward, we recommend systematic human user testing to evaluate
interactive capabilities prior to public deployments in healthcare.Summary
AI-Generated Summary