Naar Conversatieel Diagnostische AI
Towards Conversational Diagnostic AI
January 11, 2024
Auteurs: Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Samenvatting
In de kern van de geneeskunde ligt de arts-patiëntdialoog, waar vaardige anamnese de weg effent voor een accurate diagnose, effectief beheer en blijvend vertrouwen. Kunstmatige Intelligentie (AI)-systemen die diagnostische dialogen kunnen voeren, zouden de toegankelijkheid, consistentie en kwaliteit van zorg kunnen vergroten. Het benaderen van de expertise van clinici blijft echter een grote uitdaging. Hier introduceren we AMIE (Articulate Medical Intelligence Explorer), een op Large Language Models (LLM) gebaseerd AI-systeem dat is geoptimaliseerd voor diagnostische dialogen.
AMIE maakt gebruik van een innovatieve, op zelfspel gebaseerde gesimuleerde omgeving met geautomatiseerde feedbackmechanismen om leren te schalen over diverse ziektebeelden, specialismen en contexten. We hebben een raamwerk ontworpen voor het evalueren van klinisch betekenisvolle prestatie-aspecten, waaronder anamnese, diagnostische nauwkeurigheid, beheersingsredenering, communicatievaardigheden en empathie. We vergeleken de prestaties van AMIE met die van huisartsen (PCPs) in een gerandomiseerd, dubbelblind cross-over onderzoek van tekstgebaseerde consulten met gevalideerde patiëntacteurs in de stijl van een Objective Structured Clinical Examination (OSCE). De studie omvatte 149 casussen van klinische aanbieders uit Canada, het VK en India, 20 PCPs voor vergelijking met AMIE, en evaluaties door specialisten en patiëntacteurs. AMIE toonde een grotere diagnostische nauwkeurigheid en superieure prestaties op 28 van de 32 aspecten volgens specialisten en op 24 van de 26 aspecten volgens patiëntacteurs. Ons onderzoek kent enkele beperkingen en moet met de nodige voorzichtigheid worden geïnterpreteerd. Clinici waren beperkt tot onbekende synchrone tekstchat, wat grootschalige LLM-patiëntinteracties mogelijk maakt, maar niet representatief is voor de gebruikelijke klinische praktijk. Hoewel verder onderzoek nodig is voordat AMIE naar de echte wereld kan worden vertaald, vertegenwoordigen de resultaten een mijlpaal in de richting van conversatiegerichte diagnostische AI.
English
At the heart of medicine lies the physician-patient dialogue, where skillful
history-taking paves the way for accurate diagnosis, effective management, and
enduring trust. Artificial Intelligence (AI) systems capable of diagnostic
dialogue could increase accessibility, consistency, and quality of care.
However, approximating clinicians' expertise is an outstanding grand challenge.
Here, we introduce AMIE (Articulate Medical Intelligence Explorer), a Large
Language Model (LLM) based AI system optimized for diagnostic dialogue.
AMIE uses a novel self-play based simulated environment with automated
feedback mechanisms for scaling learning across diverse disease conditions,
specialties, and contexts. We designed a framework for evaluating
clinically-meaningful axes of performance including history-taking, diagnostic
accuracy, management reasoning, communication skills, and empathy. We compared
AMIE's performance to that of primary care physicians (PCPs) in a randomized,
double-blind crossover study of text-based consultations with validated patient
actors in the style of an Objective Structured Clinical Examination (OSCE). The
study included 149 case scenarios from clinical providers in Canada, the UK,
and India, 20 PCPs for comparison with AMIE, and evaluations by specialist
physicians and patient actors. AMIE demonstrated greater diagnostic accuracy
and superior performance on 28 of 32 axes according to specialist physicians
and 24 of 26 axes according to patient actors. Our research has several
limitations and should be interpreted with appropriate caution. Clinicians were
limited to unfamiliar synchronous text-chat which permits large-scale
LLM-patient interactions but is not representative of usual clinical practice.
While further research is required before AMIE could be translated to
real-world settings, the results represent a milestone towards conversational
diagnostic AI.