К созданию диалогового диагностического ИИ
Towards Conversational Diagnostic AI
January 11, 2024
Авторы: Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Аннотация
В основе медицины лежит диалог между врачом и пациентом, где искусный сбор анамнеза прокладывает путь к точной диагностике, эффективному лечению и долгосрочному доверию. Системы искусственного интеллекта (ИИ), способные вести диагностический диалог, могут повысить доступность, последовательность и качество медицинской помощи. Однако приближение к экспертизе клиницистов остается выдающейся грандиозной задачей. Здесь мы представляем AMIE (Articulate Medical Intelligence Explorer), систему ИИ на основе крупной языковой модели (LLM), оптимизированную для диагностического диалога.
AMIE использует инновационную среду, основанную на самообучении, с автоматизированными механизмами обратной связи для масштабирования обучения в различных условиях заболеваний, специализациях и контекстах. Мы разработали структуру для оценки клинически значимых аспектов производительности, включая сбор анамнеза, точность диагностики, логику лечения, навыки общения и эмпатию. Мы сравнили производительность AMIE с работой врачей первичного звена (PCPs) в рандомизированном двойном слепом перекрестном исследовании текстовых консультаций с актерами, играющими пациентов, в стиле объективного структурированного клинического экзамена (OSCE). Исследование включало 149 клинических сценариев от медицинских специалистов из Канады, Великобритании и Индии, 20 PCPs для сравнения с AMIE, а также оценки специалистов-врачей и актеров-пациентов. AMIE продемонстрировала более высокую точность диагностики и превосходные результаты по 28 из 32 аспектов по оценке специалистов и по 24 из 26 аспектов по оценке актеров-пациентов. Наше исследование имеет несколько ограничений, и его следует интерпретировать с должной осторожностью. Клиницисты были ограничены незнакомым синхронным текстовым чатом, который позволяет масштабировать взаимодействия LLM с пациентами, но не отражает обычную клиническую практику. Хотя для перевода AMIE в реальные условия требуется дальнейшее исследование, результаты представляют собой важный шаг на пути к созданию диалогового диагностического ИИ.
English
At the heart of medicine lies the physician-patient dialogue, where skillful
history-taking paves the way for accurate diagnosis, effective management, and
enduring trust. Artificial Intelligence (AI) systems capable of diagnostic
dialogue could increase accessibility, consistency, and quality of care.
However, approximating clinicians' expertise is an outstanding grand challenge.
Here, we introduce AMIE (Articulate Medical Intelligence Explorer), a Large
Language Model (LLM) based AI system optimized for diagnostic dialogue.
AMIE uses a novel self-play based simulated environment with automated
feedback mechanisms for scaling learning across diverse disease conditions,
specialties, and contexts. We designed a framework for evaluating
clinically-meaningful axes of performance including history-taking, diagnostic
accuracy, management reasoning, communication skills, and empathy. We compared
AMIE's performance to that of primary care physicians (PCPs) in a randomized,
double-blind crossover study of text-based consultations with validated patient
actors in the style of an Objective Structured Clinical Examination (OSCE). The
study included 149 case scenarios from clinical providers in Canada, the UK,
and India, 20 PCPs for comparison with AMIE, and evaluations by specialist
physicians and patient actors. AMIE demonstrated greater diagnostic accuracy
and superior performance on 28 of 32 axes according to specialist physicians
and 24 of 26 axes according to patient actors. Our research has several
limitations and should be interpreted with appropriate caution. Clinicians were
limited to unfamiliar synchronous text-chat which permits large-scale
LLM-patient interactions but is not representative of usual clinical practice.
While further research is required before AMIE could be translated to
real-world settings, the results represent a milestone towards conversational
diagnostic AI.