Les connaissances cliniques des LLM ne se traduisent pas en interactions humaines.
Clinical knowledge in LLMs does not translate to human interactions
April 26, 2025
Auteurs: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
cs.AI
Résumé
Les prestataires de soins de santé mondiaux explorent l'utilisation des grands modèles de langage (LLMs) pour fournir des conseils médicaux au public. Les LLMs obtiennent désormais des scores quasi parfaits aux examens de licence médicale, mais cela ne se traduit pas nécessairement par une performance précise dans des contextes réels. Nous avons testé si les LLMs peuvent aider les membres du public à identifier des conditions sous-jacentes et à choisir une ligne de conduite (disposition) dans dix scénarios médicaux lors d'une étude contrôlée avec 1 298 participants. Les participants ont été assignés au hasard pour recevoir une assistance d'un LLM (GPT-4o, Llama 3, Command R+) ou d'une source de leur choix (groupe témoin). Testés seuls, les LLMs complètent les scénarios avec précision, identifiant correctement les conditions dans 94,9 % des cas et la disposition dans 56,3 % en moyenne. Cependant, les participants utilisant les mêmes LLMs ont identifié les conditions pertinentes dans moins de 34,5 % des cas et la disposition dans moins de 44,2 %, aucun de ces résultats n'étant meilleur que ceux du groupe témoin. Nous identifions les interactions utilisateur comme un défi au déploiement des LLMs pour les conseils médicaux. Les benchmarks standard pour les connaissances médicales et les interactions simulées avec des patients ne prédisent pas les échecs que nous observons avec les participants humains. Pour aller de l'avant, nous recommandons des tests systématiques avec des utilisateurs humains pour évaluer les capacités interactives avant tout déploiement public dans le domaine de la santé.
English
Global healthcare providers are exploring use of large language models (LLMs)
to provide medical advice to the public. LLMs now achieve nearly perfect scores
on medical licensing exams, but this does not necessarily translate to accurate
performance in real-world settings. We tested if LLMs can assist members of the
public in identifying underlying conditions and choosing a course of action
(disposition) in ten medical scenarios in a controlled study with 1,298
participants. Participants were randomly assigned to receive assistance from an
LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested
alone, LLMs complete the scenarios accurately, correctly identifying conditions
in 94.9% of cases and disposition in 56.3% on average. However, participants
using the same LLMs identified relevant conditions in less than 34.5% of cases
and disposition in less than 44.2%, both no better than the control group. We
identify user interactions as a challenge to the deployment of LLMs for medical
advice. Standard benchmarks for medical knowledge and simulated patient
interactions do not predict the failures we find with human participants.
Moving forward, we recommend systematic human user testing to evaluate
interactive capabilities prior to public deployments in healthcare.Summary
AI-Generated Summary