ChatPaper.aiChatPaper

LLM의 임상 지식은 인간 상호작용으로 이어지지 않는다

Clinical knowledge in LLMs does not translate to human interactions

April 26, 2025
저자: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
cs.AI

초록

전 세계의 의료 제공자들은 대규모 언어 모델(LLM)을 활용하여 대중에게 의학적 조언을 제공하는 방안을 탐구하고 있습니다. LLM은 현재 의료 면허 시험에서 거의 완벽한 점수를 달성하지만, 이는 반드시 실제 환경에서의 정확한 성능으로 이어지지는 않습니다. 우리는 1,298명의 참가자를 대상으로 한 통제된 연구에서, LLM이 대중이 기저 질환을 식별하고 행동 방침(처치)을 선택하는 데 도움을 줄 수 있는지 10가지 의학적 시나리오를 통해 테스트했습니다. 참가자들은 무작위로 LLM(GPT-4o, Llama 3, Command R+)의 도움을 받는 그룹과 자신이 선택한 소스(대조군)를 사용하는 그룹으로 나뉘었습니다. 단독으로 테스트했을 때, LLM은 시나리오를 정확하게 완료하여 평균 94.9%의 사례에서 조건을 정확히 식별하고 56.3%의 사례에서 처치를 결정했습니다. 그러나 동일한 LLM을 사용한 참가자들은 관련 조건을 34.5% 미만의 사례에서, 처치를 44.2% 미만의 사례에서만 식별했으며, 이는 대조군과 차이가 없었습니다. 우리는 사용자 상호작용을 의학적 조언을 위한 LLM 배포의 주요 과제로 확인했습니다. 의학 지식과 시뮬레이션된 환자 상호작용에 대한 표준 벤치마크는 인간 참가자와의 테스트에서 발견된 실패를 예측하지 못했습니다. 앞으로, 우리는 의료 분야에서 공개 배포 전에 상호작용 능력을 평가하기 위해 체계적인 인간 사용자 테스트를 권장합니다.
English
Global healthcare providers are exploring use of large language models (LLMs) to provide medical advice to the public. LLMs now achieve nearly perfect scores on medical licensing exams, but this does not necessarily translate to accurate performance in real-world settings. We tested if LLMs can assist members of the public in identifying underlying conditions and choosing a course of action (disposition) in ten medical scenarios in a controlled study with 1,298 participants. Participants were randomly assigned to receive assistance from an LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested alone, LLMs complete the scenarios accurately, correctly identifying conditions in 94.9% of cases and disposition in 56.3% on average. However, participants using the same LLMs identified relevant conditions in less than 34.5% of cases and disposition in less than 44.2%, both no better than the control group. We identify user interactions as a challenge to the deployment of LLMs for medical advice. Standard benchmarks for medical knowledge and simulated patient interactions do not predict the failures we find with human participants. Moving forward, we recommend systematic human user testing to evaluate interactive capabilities prior to public deployments in healthcare.

Summary

AI-Generated Summary

PDF213April 29, 2025