ChatPaper.aiChatPaper

의료 에이전트를 위한 헬스케어 AI 체육관

Healthcare AI GYM for Medical Agents

May 1, 2026
저자: Minbyul Jeong
cs.AI

초록

임상적 추론은 환자 병력 수집, 검사 의뢰, 결과 해석, 안전한 치료 결정 등 다단계 상호작용을 요구하지만, 강화 학습을 통해 일반화 가능한 의료 AI 에이전트를 훈련시키기 위한 광범위한 임상 영역과 전문 도구를 제공하는 통합 훈련 환경은 여전히 부재합니다. 본 연구는 10개 임상 영역, 3,600개 이상의 태스크, 135개의 도메인 특화 도구, 828K개의 의학 지식 패시지로 구성된 체육관 호환 환경인 을 기반으로 의료 AI를 위한 다중 턴 에이전트 강화 학습에 대한 포괄적인 실증 연구를 제시합니다. 우리의 분석에 따르면, 에이전트 다중 턴 구조는 단조로운 길이 폭증과 도구 사용 빈도 감소를 특징으로 하는 장황한 단일 턴 독백으로 퇴화합니다. 우리는 이러한 붕괴와 증류 불안정성이 희소한 최종 보상과 순차적인 임상 경로 간의 불일치에서 비롯됨을 규명합니다. 기본 GRPO는 일부 벤치마크에서 강력한 최종 정확도를 달성하지만, 응답 길이의 심한 진동과 긴 수렴 기간으로 증명되는 훈련 불안정성을 겪습니다. 훈련 효율성과 안정성을 개선하기 위해, 우리는 Turn-level Truncated On-Policy Distillation(TT-OPD)을 제안합니다. 이는 그래디언트 프리 EMA 교사가 결과 특권 정보를 활용하여 모든 대화 턴마다 조밀하고 결과 인식 KL 정규화를 제공하는 자기 증류 프레임워크입니다. TT-OPD는 18개 벤치마크 중 10개에서 최고 성능을 달성하며, 비-RL 기준선 대비 평균 +3.9%p 개선, 더 빠른 초기 수렴, 제어된 응답 길이, 지속적인 다중 턴 도구 사용을 보여줍니다.
English
Clinical reasoning demands multi-step interactions -- gathering patient history, ordering tests, interpreting results, and making safe treatment decisions -- yet a unified training environment provides the breadth of clinical domains and specialized tools to train generalizable medical AI agents through reinforcement learning remains elusive. We present a comprehensive empirical study of multi-turn agentic RL for medical AI, built on , a gymnasium-compatible environment spanning 10 clinical domains with 3.6K+ tasks, 135 domain-specific tools, and a knowledge base of 828K medical passages. Our analysis reveals that agentic multi-turn structure degrades into verbose single-turn monologues, characterized by monotonic length explosion and a simultaneous erosion of tool-use frequency. We characterize how this collapse, alongside distillation instability, stems from the misalignment of sparse terminal rewards with sequential clinical trajectories. We find that vanilla GRPO achieves strong final accuracy on some benchmarks but suffers from training instability, evidenced by significant oscillations in response length and prolonged convergence periods. To improve training efficiency and stability, we propose Turn-level Truncated On-Policy Distillation (TT-OPD), a self-distillation framework where a gradient-free EMA teacher leverages outcome-privileged information to provide dense, outcome-aware KL regularization at every conversation turn. TT-OPD achieves the best performance on 10 of 18 benchmarks with an average +3.9~pp improvement over the non-RL baseline with faster early convergence, controlled response length, and sustained multi-turn tool use.
PDF12May 7, 2026