ChatPaper.aiChatPaper

Hacia una IA Diagnóstica Conversacional

Towards Conversational Diagnostic AI

January 11, 2024
Autores: Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam, Vivek Natarajan
cs.AI

Resumen

En el corazón de la medicina se encuentra el diálogo médico-paciente, donde una habilidosa toma de historias clínicas allana el camino para un diagnóstico preciso, un manejo efectivo y una confianza duradera. Los sistemas de Inteligencia Artificial (IA) capaces de realizar diálogos diagnósticos podrían aumentar la accesibilidad, consistencia y calidad de la atención. Sin embargo, aproximar la experiencia clínica de los médicos sigue siendo un gran desafío pendiente. Aquí presentamos AMIE (Articulate Medical Intelligence Explorer), un sistema de IA basado en un Modelo de Lenguaje de Gran Escala (LLM) optimizado para diálogos diagnósticos. AMIE utiliza un entorno simulado novedoso basado en autojuego con mecanismos de retroalimentación automatizados para escalar el aprendizaje en diversas condiciones de enfermedad, especialidades y contextos. Diseñamos un marco para evaluar ejes de desempeño clínicamente significativos, incluyendo la toma de historias clínicas, la precisión diagnóstica, el razonamiento de manejo, las habilidades de comunicación y la empatía. Comparamos el desempeño de AMIE con el de médicos de atención primaria (PCPs) en un estudio cruzado, aleatorizado y doble ciego de consultas basadas en texto con actores pacientes validados, siguiendo el estilo de un Examen Clínico Objetivo Estructurado (OSCE). El estudio incluyó 149 escenarios de casos de proveedores clínicos en Canadá, el Reino Unido e India, 20 PCPs para comparación con AMIE, y evaluaciones por parte de médicos especialistas y actores pacientes. AMIE demostró una mayor precisión diagnóstica y un desempeño superior en 28 de 32 ejes según los médicos especialistas y en 24 de 26 ejes según los actores pacientes. Nuestra investigación tiene varias limitaciones y debe interpretarse con la debida precaución. Los clínicos se limitaron a chats de texto sincrónicos con pacientes desconocidos, lo que permite interacciones a gran escala entre LLM y pacientes, pero no es representativo de la práctica clínica habitual. Si bien se requiere más investigación antes de que AMIE pueda trasladarse a entornos del mundo real, los resultados representan un hito hacia la IA diagnóstica conversacional.
English
At the heart of medicine lies the physician-patient dialogue, where skillful history-taking paves the way for accurate diagnosis, effective management, and enduring trust. Artificial Intelligence (AI) systems capable of diagnostic dialogue could increase accessibility, consistency, and quality of care. However, approximating clinicians' expertise is an outstanding grand challenge. Here, we introduce AMIE (Articulate Medical Intelligence Explorer), a Large Language Model (LLM) based AI system optimized for diagnostic dialogue. AMIE uses a novel self-play based simulated environment with automated feedback mechanisms for scaling learning across diverse disease conditions, specialties, and contexts. We designed a framework for evaluating clinically-meaningful axes of performance including history-taking, diagnostic accuracy, management reasoning, communication skills, and empathy. We compared AMIE's performance to that of primary care physicians (PCPs) in a randomized, double-blind crossover study of text-based consultations with validated patient actors in the style of an Objective Structured Clinical Examination (OSCE). The study included 149 case scenarios from clinical providers in Canada, the UK, and India, 20 PCPs for comparison with AMIE, and evaluations by specialist physicians and patient actors. AMIE demonstrated greater diagnostic accuracy and superior performance on 28 of 32 axes according to specialist physicians and 24 of 26 axes according to patient actors. Our research has several limitations and should be interpreted with appropriate caution. Clinicians were limited to unfamiliar synchronous text-chat which permits large-scale LLM-patient interactions but is not representative of usual clinical practice. While further research is required before AMIE could be translated to real-world settings, the results represent a milestone towards conversational diagnostic AI.
PDF200December 15, 2024