Клинические знания в языковых моделях не переносятся на взаимодействие с людьми.
Clinical knowledge in LLMs does not translate to human interactions
April 26, 2025
Авторы: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
cs.AI
Аннотация
Глобальные поставщики медицинских услуг изучают возможность использования больших языковых моделей (LLM) для предоставления медицинских рекомендаций населению. LLM сейчас демонстрируют почти идеальные результаты на экзаменах для получения медицинской лицензии, но это не обязательно означает точную работу в реальных условиях. Мы проверили, могут ли LLM помочь людям в выявлении основных заболеваний и выборе дальнейших действий (диспозиции) в десяти медицинских сценариях в рамках контролируемого исследования с участием 1 298 участников. Участники были случайным образом распределены на группы, получавшие помощь от LLM (GPT-4o, Llama 3, Command R+) или от источника по их выбору (контрольная группа). При самостоятельном тестировании LLM успешно справлялись с сценариями, правильно определяя заболевания в 94,9% случаев и диспозицию в 56,3% случаев в среднем. Однако участники, использовавшие те же LLM, выявили соответствующие заболевания менее чем в 34,5% случаев и диспозицию менее чем в 44,2% случаев, что не лучше, чем в контрольной группе. Мы выделяем взаимодействие с пользователями как ключевую проблему при внедрении LLM для медицинских рекомендаций. Стандартные тесты на медицинские знания и симуляции взаимодействия с пациентами не предсказывают ошибок, обнаруженных нами с участием людей. В дальнейшем мы рекомендуем систематическое тестирование с участием пользователей для оценки интерактивных возможностей перед публичным внедрением в сфере здравоохранения.
English
Global healthcare providers are exploring use of large language models (LLMs)
to provide medical advice to the public. LLMs now achieve nearly perfect scores
on medical licensing exams, but this does not necessarily translate to accurate
performance in real-world settings. We tested if LLMs can assist members of the
public in identifying underlying conditions and choosing a course of action
(disposition) in ten medical scenarios in a controlled study with 1,298
participants. Participants were randomly assigned to receive assistance from an
LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested
alone, LLMs complete the scenarios accurately, correctly identifying conditions
in 94.9% of cases and disposition in 56.3% on average. However, participants
using the same LLMs identified relevant conditions in less than 34.5% of cases
and disposition in less than 44.2%, both no better than the control group. We
identify user interactions as a challenge to the deployment of LLMs for medical
advice. Standard benchmarks for medical knowledge and simulated patient
interactions do not predict the failures we find with human participants.
Moving forward, we recommend systematic human user testing to evaluate
interactive capabilities prior to public deployments in healthcare.Summary
AI-Generated Summary