ChatPaper.aiChatPaper

Naar Conversatieel Diagnostische AI

Towards Conversational Diagnostic AI

January 11, 2024
Auteurs: Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam, Vivek Natarajan
cs.AI

Samenvatting

In de kern van de geneeskunde ligt de arts-patiëntdialoog, waar vaardige anamnese de weg effent voor een accurate diagnose, effectief beheer en blijvend vertrouwen. Kunstmatige Intelligentie (AI)-systemen die diagnostische dialogen kunnen voeren, zouden de toegankelijkheid, consistentie en kwaliteit van zorg kunnen vergroten. Het benaderen van de expertise van clinici blijft echter een grote uitdaging. Hier introduceren we AMIE (Articulate Medical Intelligence Explorer), een op Large Language Models (LLM) gebaseerd AI-systeem dat is geoptimaliseerd voor diagnostische dialogen. AMIE maakt gebruik van een innovatieve, op zelfspel gebaseerde gesimuleerde omgeving met geautomatiseerde feedbackmechanismen om leren te schalen over diverse ziektebeelden, specialismen en contexten. We hebben een raamwerk ontworpen voor het evalueren van klinisch betekenisvolle prestatie-aspecten, waaronder anamnese, diagnostische nauwkeurigheid, beheersingsredenering, communicatievaardigheden en empathie. We vergeleken de prestaties van AMIE met die van huisartsen (PCPs) in een gerandomiseerd, dubbelblind cross-over onderzoek van tekstgebaseerde consulten met gevalideerde patiëntacteurs in de stijl van een Objective Structured Clinical Examination (OSCE). De studie omvatte 149 casussen van klinische aanbieders uit Canada, het VK en India, 20 PCPs voor vergelijking met AMIE, en evaluaties door specialisten en patiëntacteurs. AMIE toonde een grotere diagnostische nauwkeurigheid en superieure prestaties op 28 van de 32 aspecten volgens specialisten en op 24 van de 26 aspecten volgens patiëntacteurs. Ons onderzoek kent enkele beperkingen en moet met de nodige voorzichtigheid worden geïnterpreteerd. Clinici waren beperkt tot onbekende synchrone tekstchat, wat grootschalige LLM-patiëntinteracties mogelijk maakt, maar niet representatief is voor de gebruikelijke klinische praktijk. Hoewel verder onderzoek nodig is voordat AMIE naar de echte wereld kan worden vertaald, vertegenwoordigen de resultaten een mijlpaal in de richting van conversatiegerichte diagnostische AI.
English
At the heart of medicine lies the physician-patient dialogue, where skillful history-taking paves the way for accurate diagnosis, effective management, and enduring trust. Artificial Intelligence (AI) systems capable of diagnostic dialogue could increase accessibility, consistency, and quality of care. However, approximating clinicians' expertise is an outstanding grand challenge. Here, we introduce AMIE (Articulate Medical Intelligence Explorer), a Large Language Model (LLM) based AI system optimized for diagnostic dialogue. AMIE uses a novel self-play based simulated environment with automated feedback mechanisms for scaling learning across diverse disease conditions, specialties, and contexts. We designed a framework for evaluating clinically-meaningful axes of performance including history-taking, diagnostic accuracy, management reasoning, communication skills, and empathy. We compared AMIE's performance to that of primary care physicians (PCPs) in a randomized, double-blind crossover study of text-based consultations with validated patient actors in the style of an Objective Structured Clinical Examination (OSCE). The study included 149 case scenarios from clinical providers in Canada, the UK, and India, 20 PCPs for comparison with AMIE, and evaluations by specialist physicians and patient actors. AMIE demonstrated greater diagnostic accuracy and superior performance on 28 of 32 axes according to specialist physicians and 24 of 26 axes according to patient actors. Our research has several limitations and should be interpreted with appropriate caution. Clinicians were limited to unfamiliar synchronous text-chat which permits large-scale LLM-patient interactions but is not representative of usual clinical practice. While further research is required before AMIE could be translated to real-world settings, the results represent a milestone towards conversational diagnostic AI.
PDF200April 9, 2026