ChatPaper.aiChatPaper

O conhecimento clínico em LLMs não se traduz em interações humanas.

Clinical knowledge in LLMs does not translate to human interactions

April 26, 2025
Autores: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
cs.AI

Resumo

Provedores globais de saúde estão explorando o uso de modelos de linguagem de grande escala (LLMs) para fornecer orientações médicas ao público. Atualmente, os LLMs alcançam pontuações quase perfeitas em exames de licenciamento médico, mas isso não necessariamente se traduz em desempenho preciso em cenários do mundo real. Testamos se os LLMs podem auxiliar membros do público na identificação de condições subjacentes e na escolha de um curso de ação (disposição) em dez cenários médicos, em um estudo controlado com 1.298 participantes. Os participantes foram aleatoriamente designados para receber assistência de um LLM (GPT-4o, Llama 3, Command R+) ou de uma fonte de sua escolha (grupo de controle). Testados isoladamente, os LLMs completam os cenários com precisão, identificando corretamente as condições em 94,9% dos casos e a disposição em 56,3%, em média. No entanto, os participantes que utilizaram os mesmos LLMs identificaram condições relevantes em menos de 34,5% dos casos e a disposição em menos de 44,2%, ambos não melhores que o grupo de controle. Identificamos as interações do usuário como um desafio para a implantação de LLMs para orientações médicas. Benchmarks padrão para conhecimento médico e interações simuladas com pacientes não preveem as falhas que encontramos com participantes humanos. Avançando, recomendamos testes sistemáticos com usuários humanos para avaliar capacidades interativas antes de implantações públicas na área da saúde.
English
Global healthcare providers are exploring use of large language models (LLMs) to provide medical advice to the public. LLMs now achieve nearly perfect scores on medical licensing exams, but this does not necessarily translate to accurate performance in real-world settings. We tested if LLMs can assist members of the public in identifying underlying conditions and choosing a course of action (disposition) in ten medical scenarios in a controlled study with 1,298 participants. Participants were randomly assigned to receive assistance from an LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested alone, LLMs complete the scenarios accurately, correctly identifying conditions in 94.9% of cases and disposition in 56.3% on average. However, participants using the same LLMs identified relevant conditions in less than 34.5% of cases and disposition in less than 44.2%, both no better than the control group. We identify user interactions as a challenge to the deployment of LLMs for medical advice. Standard benchmarks for medical knowledge and simulated patient interactions do not predict the failures we find with human participants. Moving forward, we recommend systematic human user testing to evaluate interactive capabilities prior to public deployments in healthcare.
PDF255April 29, 2025