Vers une IA de diagnostic conversationnelle
Towards Conversational Diagnostic AI
January 11, 2024
Auteurs: Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Résumé
Au cœur de la médecine se trouve le dialogue entre le médecin et le patient, où une anamnèse habile ouvre la voie à un diagnostic précis, une prise en charge efficace et une confiance durable. Les systèmes d'Intelligence Artificielle (IA) capables de dialoguer pour établir un diagnostic pourraient améliorer l'accessibilité, la cohérence et la qualité des soins. Cependant, approcher l'expertise des cliniciens reste un défi majeur. Nous présentons ici AMIE (Articulate Medical Intelligence Explorer), un système d'IA basé sur un modèle de langage de grande taille (LLM) optimisé pour le dialogue diagnostique.
AMIE utilise un environnement simulé innovant basé sur l'auto-apprentissage, doté de mécanismes de feedback automatisés pour élargir l'apprentissage à diverses conditions pathologiques, spécialités et contextes. Nous avons conçu un cadre pour évaluer des axes de performance cliniquement pertinents, incluant l'anamnèse, la précision diagnostique, le raisonnement thérapeutique, les compétences de communication et l'empathie. Nous avons comparé les performances d'AMIE à celles de médecins généralistes dans une étude randomisée en double aveugle et en crossover, basée sur des consultations textuelles avec des acteurs-patients validés, dans le style d'un Examen Clinique Objectif Structuré (ECOS). L'étude comprenait 149 scénarios cliniques fournis par des professionnels de santé au Canada, au Royaume-Uni et en Inde, 20 médecins généralistes pour la comparaison avec AMIE, ainsi que des évaluations par des médecins spécialistes et des acteurs-patients. AMIE a démontré une plus grande précision diagnostique et une performance supérieure sur 28 des 32 axes selon les médecins spécialistes, et sur 24 des 26 axes selon les acteurs-patients. Notre recherche présente plusieurs limites et doit être interprétée avec prudence. Les cliniciens étaient limités à des échanges textuels synchrones non familiers, ce qui permet des interactions à grande échelle entre LLM et patients mais ne reflète pas la pratique clinique habituelle. Bien que des recherches supplémentaires soient nécessaires avant qu'AMIE puisse être transposé dans des contextes réels, ces résultats représentent une étape importante vers une IA conversationnelle diagnostique.
English
At the heart of medicine lies the physician-patient dialogue, where skillful
history-taking paves the way for accurate diagnosis, effective management, and
enduring trust. Artificial Intelligence (AI) systems capable of diagnostic
dialogue could increase accessibility, consistency, and quality of care.
However, approximating clinicians' expertise is an outstanding grand challenge.
Here, we introduce AMIE (Articulate Medical Intelligence Explorer), a Large
Language Model (LLM) based AI system optimized for diagnostic dialogue.
AMIE uses a novel self-play based simulated environment with automated
feedback mechanisms for scaling learning across diverse disease conditions,
specialties, and contexts. We designed a framework for evaluating
clinically-meaningful axes of performance including history-taking, diagnostic
accuracy, management reasoning, communication skills, and empathy. We compared
AMIE's performance to that of primary care physicians (PCPs) in a randomized,
double-blind crossover study of text-based consultations with validated patient
actors in the style of an Objective Structured Clinical Examination (OSCE). The
study included 149 case scenarios from clinical providers in Canada, the UK,
and India, 20 PCPs for comparison with AMIE, and evaluations by specialist
physicians and patient actors. AMIE demonstrated greater diagnostic accuracy
and superior performance on 28 of 32 axes according to specialist physicians
and 24 of 26 axes according to patient actors. Our research has several
limitations and should be interpreted with appropriate caution. Clinicians were
limited to unfamiliar synchronous text-chat which permits large-scale
LLM-patient interactions but is not representative of usual clinical practice.
While further research is required before AMIE could be translated to
real-world settings, the results represent a milestone towards conversational
diagnostic AI.