Klinische kennis in LLM's vertaalt zich niet naar menselijke interacties
Clinical knowledge in LLMs does not translate to human interactions
April 26, 2025
Auteurs: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
cs.AI
Samenvatting
Wereldwijde zorgverleners onderzoeken het gebruik van grote taalmodelen (LLM's) om medisch advies aan het publiek te verstrekken. LLM's behalen nu bijna perfecte scores op medische licentie-examens, maar dit vertaalt zich niet noodzakelijk naar accurate prestaties in realistische settings. We hebben getest of LLM's leden van het publiek kunnen helpen bij het identificeren van onderliggende aandoeningen en het kiezen van een vervolgcursus (dispositie) in tien medische scenario's in een gecontroleerde studie met 1.298 deelnemers. Deelnemers werden willekeurig toegewezen om hulp te ontvangen van een LLM (GPT-4o, Llama 3, Command R+) of een bron naar keuze (controlegroep). Wanneer alleen getest, voltooien de LLM's de scenario's accuraat, waarbij ze in 94,9% van de gevallen de aandoeningen correct identificeerden en in 56,3% de juiste dispositie bepaalden. Echter, deelnemers die dezelfde LLM's gebruikten, identificeerden relevante aandoeningen in minder dan 34,5% van de gevallen en de juiste dispositie in minder dan 44,2%, beide niet beter dan de controlegroep. We identificeren gebruikersinteracties als een uitdaging voor de inzet van LLM's voor medisch advies. Standaard benchmarks voor medische kennis en gesimuleerde patiëntinteracties voorspellen niet de fouten die we vinden bij menselijke deelnemers. Vooruitkijkend bevelen we systematische gebruikersonderzoeken aan om de interactieve mogelijkheden te evalueren voordat LLM's in de gezondheidszorg worden ingezet.
English
Global healthcare providers are exploring use of large language models (LLMs)
to provide medical advice to the public. LLMs now achieve nearly perfect scores
on medical licensing exams, but this does not necessarily translate to accurate
performance in real-world settings. We tested if LLMs can assist members of the
public in identifying underlying conditions and choosing a course of action
(disposition) in ten medical scenarios in a controlled study with 1,298
participants. Participants were randomly assigned to receive assistance from an
LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested
alone, LLMs complete the scenarios accurately, correctly identifying conditions
in 94.9% of cases and disposition in 56.3% on average. However, participants
using the same LLMs identified relevant conditions in less than 34.5% of cases
and disposition in less than 44.2%, both no better than the control group. We
identify user interactions as a challenge to the deployment of LLMs for medical
advice. Standard benchmarks for medical knowledge and simulated patient
interactions do not predict the failures we find with human participants.
Moving forward, we recommend systematic human user testing to evaluate
interactive capabilities prior to public deployments in healthcare.Summary
AI-Generated Summary