Modelos de Linguagem e um Caso de Uso de Segunda Opinião: O Profissional de Bolso
Language Models And A Second Opinion Use Case: The Pocket Professional
October 27, 2024
Autores: David Noever
cs.AI
Resumo
Esta pesquisa testa o papel dos Modelos de Linguagem de Grande Escala (LLMs) como ferramentas formais de segunda opinião na tomada de decisão profissional, focando especialmente em casos médicos complexos nos quais até mesmo médicos experientes buscam consultas de colegas. O trabalho analisou 183 casos médicos desafiadores do Medscape ao longo de um período de 20 meses, testando o desempenho de múltiplos LLMs em comparação com as respostas de médicos obtidas de forma colaborativa. Uma descoberta importante foi a alta pontuação geral possível nos modelos fundamentais mais recentes (>80% de precisão em comparação com a opinião consensual), superando a maioria das métricas humanas relatadas nos mesmos casos clínicos (450 páginas de perfis de pacientes, resultados de testes). O estudo avalia a disparidade de desempenho dos LLMs entre casos simples (>81% de precisão) e cenários complexos (43% de precisão), especialmente nesses casos que geram considerável debate entre os médicos humanos. A pesquisa demonstra que os LLMs podem ser valiosos como geradores de diagnósticos diferenciais abrangentes em vez de ferramentas diagnósticas primárias, potencialmente ajudando a combater vieses cognitivos na tomada de decisões clínicas, reduzir cargas cognitivas e, assim, eliminar algumas fontes de erros médicos. A inclusão de um segundo conjunto de dados legais comparativos (casos da Suprema Corte, N=21) fornece contexto empírico adicional para o uso de IA na promoção de segundas opiniões, embora esses desafios legais tenham se mostrado consideravelmente mais fáceis para os LLMs analisarem. Além das contribuições originais de evidências empíricas para a precisão dos LLMs, a pesquisa agregou um novo referencial para que outros avaliem a confiabilidade de perguntas e respostas altamente contestadas entre os LLMs e profissionais humanos discordantes. Esses resultados sugerem que a implantação ideal dos LLMs em ambientes profissionais pode diferir substancialmente das abordagens atuais que enfatizam a automação de tarefas rotineiras.
English
This research tests the role of Large Language Models (LLMs) as formal second
opinion tools in professional decision-making, particularly focusing on complex
medical cases where even experienced physicians seek peer consultation. The
work analyzed 183 challenging medical cases from Medscape over a 20-month
period, testing multiple LLMs' performance against crowd-sourced physician
responses. A key finding was the high overall score possible in the latest
foundational models (>80% accuracy compared to consensus opinion), which
exceeds most human metrics reported on the same clinical cases (450 pages of
patient profiles, test results). The study rates the LLMs' performance
disparity between straightforward cases (>81% accuracy) and complex scenarios
(43% accuracy), particularly in these cases generating substantial debate among
human physicians. The research demonstrates that LLMs may be valuable as
generators of comprehensive differential diagnoses rather than as primary
diagnostic tools, potentially helping to counter cognitive biases in clinical
decision-making, reduce cognitive loads, and thus remove some sources of
medical error. The inclusion of a second comparative legal dataset (Supreme
Court cases, N=21) provides added empirical context to the AI use to foster
second opinions, though these legal challenges proved considerably easier for
LLMs to analyze. In addition to the original contributions of empirical
evidence for LLM accuracy, the research aggregated a novel benchmark for others
to score highly contested question and answer reliability between both LLMs and
disagreeing human practitioners. These results suggest that the optimal
deployment of LLMs in professional settings may differ substantially from
current approaches that emphasize automation of routine tasks.