증상AI: 일상적 증상 평가를 위한 대화형 AI 에이전트
SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment
May 5, 2026
저자: Joseph Breda, Fadi Yousif, Beszel Hawkins, Marinela Cotoi, Miao Liu, Ray Luo, Po-Hsuan Cameron Chen, Mike Schaekermann, Samuel Schmidgall, Xin Liu, Girish Narayanswamy, Samuel Solomon, Maxwell A. Xu, Xiaoran Fan, Longfei Shangguan, Anran Wang, Bhavna Daryani, Buddy Herkenham, Cara Tan, Mark Malhotra, Shwetak Patel, John B. Hernandez, Quang Duong, Yun Liu, Zach Wasson, Dimitrios Antos, Bob Lou, Matthew Thompson, Jonathan Richina, Anupam Pathak, Nichole Young-Lin, Jake Sunshine, Daniel McDuff
cs.AI
초록
언어 모델은 정성적으로 구성된 의료 사례 연구 및 진단 시나리오에서 진단 평가를 탁월하게 수행하며, 임상 전문가와 동등하거나 그 이상의 성과를 보입니다. 그러나 기존 연구는 풍부한 맥락을 가진 복잡한 시나리오에 집중되어 있어, 이러한 시스템이 일상 생활에서 증상을 호소하는 환자를 위해 어떻게 수행되는지에 대한 결론을 내리기 어렵습니다. 우리는 피트빗(Fitbit) 앱을 통해 종단간 환자 면담 및 감별진단(DDx)을 위한 대화형 AI 에이전트 세트인 SymptomAI를 배포하여 참가자(N=13,917명)가 5개의 AI 에이전트와 상호작용하도록 무작위 배정한 연구를 수행했습니다. 이 코퍼스는 현실 세계 인구 집단의 다양한 의사소통 방식과 실제적인 질병 분포를 포착합니다. 참가자 중 1,228명의 하위 집단은 임상의가 제공한 진단을 보고했으며, 이 중 517명은 250시간 이상의 annotation 동안 임상의 패널에 의해 추가로 평가되었습니다. 맹검 무작위 비교에서 동일한 대화 내용이 주어졌을 때, SymptomAI의 감별진단은 독립적인 임상의의 감별진단보다 통계적으로 유의미하게 더 정확했습니다(OR = 2.47, p < 0.001). 더욱이, 진단을 제공하기 전에 추가 증상 정보를 도출하는 전용 증상 면담을 수행하는 에이전트 전략은 사용자 주도 대화(베이스라인)보다 상당히 더 나은 성능을 보였습니다(p < 0.001). 미국 일반 인구 패널의 1,509개 대화에 대한 보조 분석은 이러한 결과가 웨어러블 기기 사용자를 넘어 일반화됨을 입증했습니다. 우리는 모든 13,917명 참가자에 대한 레이블로 SymptomAI 진단을 사용하여 약 400가지 고유 질환에 걸친 500,000일 이상의 웨어러블 지표를 분석했습니다. 우리는 급성 감염과 생리적 변화 사이에 강력한 연관성을 확인했습니다(예: 인플루엔za의 경우 OR > 7). 자가 보고된 기준 진단에 의해 제한되기는 하지만, 이러한 결과는 대부분의 소비자용 LLM의 기본값인 사용자 주도 증상 논의에 비해 전용 및 완전한 증상 면담의 이점을 보여줍니다.
English
Language models excel at diagnostic assessments on currated medical case-studies and vignettes, performing on par with, or better than, clinical professionals. However, existing studies focus on complex scenarios with rich context making it difficult to draw conclusions about how these systems perform for patients reporting symptoms in everyday life. We deployed SymptomAI, a set of conversational AI agents for end-to-end patient interviewing and differential diagnosis (DDx), via the Fitbit app in a study that randomized participants (N=13,917) to interact with five AI agents. This corpus captures diverse communication and a realistic distribution of illnesses from a real world population. A subset of 1,228 participants reported a clinician-provided diagnosis, and 517 of these were further evaluated by a panel of clinicians during over 250 hours of annotation. SymptomAI DDx were significantly more accurate (OR = 2.47, p < 0.001) than those from independent clinicians given the same dialogue in a blinded randomized comparison. Moreover, agentic strategies which conduct a dedicated symptom interview that elicit additional symptom information before providing a diagnosis, perform substantially better than baseline, user-guided conversations (p < 0.001). An auxiliary analysis on 1,509 conversations from a general US population panel validated that these results generalize beyond wearable device users. We used SymptomAI diagnoses as labels for all 13,917 participants to analyze over 500,000 days of wearable metrics across nearly 400 unique conditions. We identified strong associations between acute infections and physiological shifts (e.g., OR > 7 for influenza). While limited by self-reported ground truth, these results demonstrate the benefits of a dedicated and complete symptom interview compared to a user-guided symptom discussion, which is the default of most consumer LLMs.