가상 임상 환경에서 진단 에이전트의 진화
Evolving Diagnostic Agents in a Virtual Clinical Environment
October 28, 2025
저자: Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
초록
본 논문에서는 대규모 언어 모델(LLM)을 강화 학습 기반 진단 에이전트로 훈련시키는 프레임워크를 제시하며, 이를 통해 다중 회기 진단 과정 관리, 상황에 맞는 검사 선택, 최종 진단 결정 능력을 갖추도록 합니다. 정적 사례 요약 데이터로 지시 튜닝된 모델과 달리, 우리의 방법은 상호작용적 탐색과 결과 기반 피드백을 통해 진단 전략을 습득합니다. 본 연구의 기여점은 다음과 같습니다: (i) 전자의무기록으로 훈련된 진단 세계 모델 DiagGym을 제시하여, 환자 병력과 권장 검사를 조건으로 검사 결과를 생성함으로써 현실적인 진단 훈련 및 평가를 위한 가상 임상 환경을 제공합니다; (ii) 정보 수확과 진단 정확도를 함께 최적화하는 진단 정책을 학습하기 위해 DiagAgent를 종단간 다중 회기 강화 학습으로 훈련합니다; (iii) 의사가 검증한 검사 권장안이 포함된 750개 사례와, 진단 과정에 대한 973개의 의사 작성 평가 기준으로 주석 처리된 99개 사례로 구성된 진단 벤치마크 DiagBench를 도입합니다; (iv) 다양한 진단 환경에서 우수한 성능을 입증합니다. DiagAgent는 DeepSeek-v3 및 GPT-4o를 포함한 10개의 최첨단 LLM과 두 개의 프롬프트 엔지니어링 에이전트를 크게 능가합니다. 단일 회기 설정에서 DiagAgent는 9.34% 더 높은 진단 정확도와 44.03% 향상된 검사 권장 적중률을 달성합니다. 종단간 설정에서는 진단 정확도가 15.12% 증가하고 검사 권장 F1 점수가 23.09% 향상됩니다. 평가 기준 기반 평가에서는 차선위 모델인 Claude-sonnet-4보다 가중치 평가 기준 점수에서 7.1% 앞섭니다. 이러한 결과는 상호작용적 임상 환경에서 정책을 학습함으로써 수동적 훈련만으로는 달성할 수 없는 동적이고 임상적으로 의미 있는 진단 관리 능력을 부여받음을 시사합니다.
English
In this paper, we present a framework for training large language models
(LLMs) as diagnostic agents with reinforcement learning, enabling them to
manage multi-turn diagnostic processes, adaptively select examinations, and
commit to final diagnoses. Unlike instruction-tuned models trained on static
case summaries, our method acquires diagnostic strategies through interactive
exploration and outcome-based feedback. Our contributions are fourfold: (i) We
present DiagGym, a diagnostics world model trained with electronic health
records that emits examination outcomes conditioned on patient history and
recommended examination, serving as a virtual clinical environment for
realistic diagnosis training and evaluation; (ii) We train DiagAgent via
end-to-end, multi-turn reinforcement learning to learn diagnostic policies that
optimize both information yield and diagnostic accuracy; (iii) We introduce
DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated
examination recommendations and 99 cases annotated with 973 physician-written
rubrics on diagnosis process; (iv) we demonstrate superior performance across
diverse diagnostic settings. DiagAgent significantly outperforms 10
state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two
prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34%
higher diagnostic accuracy and 44.03% improvement in examination recommendation
hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic
accuracy and 23.09% boost in examination recommendation F1 score. In
rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by
7.1% in weighted rubric score. These findings indicate that learning policies
in interactive clinical environments confers dynamic and clinically meaningful
diagnostic management abilities unattainable through passive training alone.