Klinisches Wissen in LLMs lässt sich nicht auf menschliche Interaktionen übertragen.
Clinical knowledge in LLMs does not translate to human interactions
April 26, 2025
Autoren: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
cs.AI
Zusammenfassung
Globale Gesundheitsdienstleister erkunden den Einsatz von großen Sprachmodellen (LLMs), um der Öffentlichkeit medizinische Ratschläge zu bieten. LLMs erzielen mittlerweile nahezu perfekte Ergebnisse bei medizinischen Zulassungsprüfungen, doch dies bedeutet nicht zwangsläufig eine genaue Leistung in realen Anwendungsszenarien. Wir haben in einer kontrollierten Studie mit 1.298 Teilnehmern getestet, ob LLMs Mitglieder der Öffentlichkeit dabei unterstützen können, zugrunde liegende Erkrankungen zu identifizieren und einen Handlungsweg (Disposition) in zehn medizinischen Szenarien zu wählen. Die Teilnehmer wurden zufällig zugewiesen, entweder Unterstützung von einem LLM (GPT-4o, Llama 3, Command R+) oder einer Quelle ihrer Wahl (Kontrollgruppe) zu erhalten. Allein getestet, bewältigen die LLMs die Szenarien präzise, indem sie in 94,9 % der Fälle die Erkrankungen korrekt identifizierten und in durchschnittlich 56,3 % die richtige Disposition wählten. Allerdings identifizierten Teilnehmer, die dieselben LLMs nutzten, relevante Erkrankungen in weniger als 34,5 % der Fälle und die richtige Disposition in weniger als 44,2 %, was nicht besser war als in der Kontrollgruppe. Wir identifizieren die Benutzerinteraktionen als eine Herausforderung für den Einsatz von LLMs in der medizinischen Beratung. Standard-Benchmarks für medizinisches Wissen und simulierte Patientengespräche sagen die von uns bei menschlichen Teilnehmern festgestellten Fehler nicht voraus. Für die Zukunft empfehlen wir systematische Benutzertests, um die interaktiven Fähigkeiten vor einem öffentlichen Einsatz im Gesundheitswesen zu evaluieren.
English
Global healthcare providers are exploring use of large language models (LLMs)
to provide medical advice to the public. LLMs now achieve nearly perfect scores
on medical licensing exams, but this does not necessarily translate to accurate
performance in real-world settings. We tested if LLMs can assist members of the
public in identifying underlying conditions and choosing a course of action
(disposition) in ten medical scenarios in a controlled study with 1,298
participants. Participants were randomly assigned to receive assistance from an
LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested
alone, LLMs complete the scenarios accurately, correctly identifying conditions
in 94.9% of cases and disposition in 56.3% on average. However, participants
using the same LLMs identified relevant conditions in less than 34.5% of cases
and disposition in less than 44.2%, both no better than the control group. We
identify user interactions as a challenge to the deployment of LLMs for medical
advice. Standard benchmarks for medical knowledge and simulated patient
interactions do not predict the failures we find with human participants.
Moving forward, we recommend systematic human user testing to evaluate
interactive capabilities prior to public deployments in healthcare.Summary
AI-Generated Summary