ChatPaper.aiChatPaper

Hin zu konversationsfähiger diagnostischer KI

Towards Conversational Diagnostic AI

January 11, 2024
Autoren: Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam, Vivek Natarajan
cs.AI

Zusammenfassung

Im Zentrum der Medizin steht der Arzt-Patienten-Dialog, bei dem eine geschickte Anamneseerhebung den Weg für eine genaue Diagnose, effektive Behandlung und nachhaltiges Vertrauen ebnet. Künstliche Intelligenz (KI)-Systeme, die zu diagnostischen Dialogen fähig sind, könnten die Zugänglichkeit, Konsistenz und Qualität der Versorgung erhöhen. Die Annäherung an die Expertise von Klinikern bleibt jedoch eine herausragende große Herausforderung. Hier stellen wir AMIE (Articulate Medical Intelligence Explorer) vor, ein auf diagnostische Dialoge optimiertes KI-System, das auf einem Large Language Model (LLM) basiert. AMIE nutzt eine neuartige, auf Selbstspiel basierende simulierte Umgebung mit automatisierten Feedback-Mechanismen, um das Lernen über diverse Krankheitsbilder, Fachgebiete und Kontexte hinweg zu skalieren. Wir entwickelten ein Rahmenwerk zur Bewertung klinisch relevanter Leistungsaspekte, einschließlich Anamneseerhebung, diagnostischer Genauigkeit, Behandlungsplanung, Kommunikationsfähigkeiten und Empathie. Wir verglichen die Leistung von AMIE mit der von Hausärzten (PCPs) in einer randomisierten, doppelblinden Crossover-Studie von textbasierten Konsultationen mit validierten Schauspielpatienten im Stil einer Objective Structured Clinical Examination (OSCE). Die Studie umfasste 149 Fallbeispiele von klinischen Anbietern aus Kanada, dem Vereinigten Königreich und Indien, 20 PCPs für den Vergleich mit AMIE sowie Bewertungen durch Fachärzte und Schauspielpatienten. AMIE zeigte eine höhere diagnostische Genauigkeit und überlegene Leistung in 28 von 32 Aspekten laut Fachärzten und 24 von 26 Aspekten laut Schauspielpatienten. Unsere Forschung weist mehrere Einschränkungen auf und sollte mit angemessener Vorsicht interpretiert werden. Die Kliniker waren auf ungewohnte synchrone Textchats beschränkt, die groß angelegte LLM-Patienten-Interaktionen ermöglichen, aber nicht die übliche klinische Praxis repräsentieren. Obwohl weitere Forschung erforderlich ist, bevor AMIE in reale Anwendungen übertragen werden könnte, stellen die Ergebnisse einen Meilenstein auf dem Weg zu konversationsfähiger diagnostischer KI dar.
English
At the heart of medicine lies the physician-patient dialogue, where skillful history-taking paves the way for accurate diagnosis, effective management, and enduring trust. Artificial Intelligence (AI) systems capable of diagnostic dialogue could increase accessibility, consistency, and quality of care. However, approximating clinicians' expertise is an outstanding grand challenge. Here, we introduce AMIE (Articulate Medical Intelligence Explorer), a Large Language Model (LLM) based AI system optimized for diagnostic dialogue. AMIE uses a novel self-play based simulated environment with automated feedback mechanisms for scaling learning across diverse disease conditions, specialties, and contexts. We designed a framework for evaluating clinically-meaningful axes of performance including history-taking, diagnostic accuracy, management reasoning, communication skills, and empathy. We compared AMIE's performance to that of primary care physicians (PCPs) in a randomized, double-blind crossover study of text-based consultations with validated patient actors in the style of an Objective Structured Clinical Examination (OSCE). The study included 149 case scenarios from clinical providers in Canada, the UK, and India, 20 PCPs for comparison with AMIE, and evaluations by specialist physicians and patient actors. AMIE demonstrated greater diagnostic accuracy and superior performance on 28 of 32 axes according to specialist physicians and 24 of 26 axes according to patient actors. Our research has several limitations and should be interpreted with appropriate caution. Clinicians were limited to unfamiliar synchronous text-chat which permits large-scale LLM-patient interactions but is not representative of usual clinical practice. While further research is required before AMIE could be translated to real-world settings, the results represent a milestone towards conversational diagnostic AI.
PDF200December 15, 2024