Modelos de Lenguaje y un Caso de Uso de Segunda Opinión: El Profesional de Bolsillo
Language Models And A Second Opinion Use Case: The Pocket Professional
October 27, 2024
Autores: David Noever
cs.AI
Resumen
Esta investigación evalúa el papel de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) como herramientas formales de segunda opinión en la toma de decisiones profesionales, centrándose especialmente en casos médicos complejos donde incluso médicos experimentados buscan consultas de colegas. El trabajo analizó 183 casos médicos desafiantes de Medscape durante un período de 20 meses, evaluando el rendimiento de múltiples LLMs frente a las respuestas de médicos recopiladas de la multitud. Un hallazgo clave fue la alta puntuación general posible en los últimos modelos fundamentales (>80% de precisión en comparación con la opinión de consenso), superando la mayoría de las métricas humanas reportadas en los mismos casos clínicos (450 páginas de perfiles de pacientes, resultados de pruebas). El estudio evalúa la disparidad en el rendimiento de los LLMs entre casos sencillos (>81% de precisión) y escenarios complejos (43% de precisión), especialmente en aquellos casos que generan un debate sustancial entre los médicos humanos. La investigación demuestra que los LLMs pueden ser valiosos como generadores de diagnósticos diferenciales completos en lugar de como herramientas de diagnóstico primarias, potencialmente ayudando a contrarrestar los sesgos cognitivos en la toma de decisiones clínicas, reducir las cargas cognitivas y, por lo tanto, eliminar algunas fuentes de error médico. La inclusión de un segundo conjunto de datos legales comparativos (casos de la Corte Suprema, N=21) proporciona un contexto empírico adicional para el uso de la IA en fomentar segundas opiniones, aunque estos desafíos legales resultaron considerablemente más fáciles de analizar para los LLMs. Además de las contribuciones originales de evidencia empírica para la precisión de los LLMs, la investigación agregó un nuevo punto de referencia para que otros evalúen la fiabilidad de preguntas y respuestas altamente disputadas entre tanto los LLMs como los profesionales humanos en desacuerdo. Estos resultados sugieren que el despliegue óptimo de los LLMs en entornos profesionales puede diferir sustancialmente de los enfoques actuales que enfatizan la automatización de tareas rutinarias.
English
This research tests the role of Large Language Models (LLMs) as formal second
opinion tools in professional decision-making, particularly focusing on complex
medical cases where even experienced physicians seek peer consultation. The
work analyzed 183 challenging medical cases from Medscape over a 20-month
period, testing multiple LLMs' performance against crowd-sourced physician
responses. A key finding was the high overall score possible in the latest
foundational models (>80% accuracy compared to consensus opinion), which
exceeds most human metrics reported on the same clinical cases (450 pages of
patient profiles, test results). The study rates the LLMs' performance
disparity between straightforward cases (>81% accuracy) and complex scenarios
(43% accuracy), particularly in these cases generating substantial debate among
human physicians. The research demonstrates that LLMs may be valuable as
generators of comprehensive differential diagnoses rather than as primary
diagnostic tools, potentially helping to counter cognitive biases in clinical
decision-making, reduce cognitive loads, and thus remove some sources of
medical error. The inclusion of a second comparative legal dataset (Supreme
Court cases, N=21) provides added empirical context to the AI use to foster
second opinions, though these legal challenges proved considerably easier for
LLMs to analyze. In addition to the original contributions of empirical
evidence for LLM accuracy, the research aggregated a novel benchmark for others
to score highly contested question and answer reliability between both LLMs and
disagreeing human practitioners. These results suggest that the optimal
deployment of LLMs in professional settings may differ substantially from
current approaches that emphasize automation of routine tasks.Summary
AI-Generated Summary