Gezondheidszorg AI GYM voor Medische Agentschappen
Healthcare AI GYM for Medical Agents
May 1, 2026
Auteurs: Minbyul Jeong
cs.AI
Samenvatting
Klinisch redeneren vereist meerstapsinteracties - het verzamelen van patiëntgeschiedenissen, het aanvragen van tests, het interpreteren van resultaten en het nemen van veilige behandelbeslissingen - maar een geïntegreerde trainingsomgeving die de breedte van klinische domeinen en gespecialiseerde hulpmiddelen biedt om generaliseerbare medische AI-agenten via reinforcement learning te trainen, blijft ongrijpbaar. Wij presenteren een uitgebreide empirische studie naar multi-turn agent-gebaseerd RL voor medische AI, gebouwd op [omgevingsnaam], een gymnasium-compatibele omgeving die 10 klinische domeinen omvat met 3.600+ taken, 135 domeinspecifieke hulpmiddelen en een kennisbank van 828.000 medische passages. Onze analyse toont aan dat de agent-gebaseerde multi-turn structuur degradeert tot breedsprakige single-turn monologen, gekenmerkt door monotone lengte-explosie en een gelijktijdige erosie van hulpmiddelgebruik. Wij karakteriseren hoe deze ineenstorting, samen met distillatie-instabiliteit, voortvloeit uit de misalignering van schaarse terminale beloningen met sequentiële klinische trajecten. Wij constateren dat standaard GRPO een sterke eindnauwkeurigheid bereikt op sommige benchmarks, maar lijdt onder trainingsinstabiliteit, wat blijkt uit significante oscillaties in responslengte en langdurige convergentieperiodes. Om de trainsefficiëntie en stabiliteit te verbeteren, stellen wij Turn-level Truncated On-Policy Distillation (TT-OPD) voor, een zelfdistillatieraamwerk waarbij een gradient-vrije EMA-leraar outcome-geprivilegieerde informatie benut om dichte, outcome-bewuste KL-regularisatie bij elke gespreksronde te bieden. TT-OPD behaalt de beste prestaties op 10 van de 18 benchmarks met een gemiddelde verbetering van +3,9%~p ten opzichte van de niet-RL-baseline, met snellere vroege convergentie, gecontroleerde responslengte en volgehouden multi-turn hulpmiddelgebruik.
English
Clinical reasoning demands multi-step interactions -- gathering patient history, ordering tests, interpreting results, and making safe treatment decisions -- yet a unified training environment provides the breadth of clinical domains and specialized tools to train generalizable medical AI agents through reinforcement learning remains elusive. We present a comprehensive empirical study of multi-turn agentic RL for medical AI, built on , a gymnasium-compatible environment spanning 10 clinical domains with 3.6K+ tasks, 135 domain-specific tools, and a knowledge base of 828K medical passages. Our analysis reveals that agentic multi-turn structure degrades into verbose single-turn monologues, characterized by monotonic length explosion and a simultaneous erosion of tool-use frequency. We characterize how this collapse, alongside distillation instability, stems from the misalignment of sparse terminal rewards with sequential clinical trajectories. We find that vanilla GRPO achieves strong final accuracy on some benchmarks but suffers from training instability, evidenced by significant oscillations in response length and prolonged convergence periods. To improve training efficiency and stability, we propose Turn-level Truncated On-Policy Distillation (TT-OPD), a self-distillation framework where a gradient-free EMA teacher leverages outcome-privileged information to provide dense, outcome-aware KL regularization at every conversation turn. TT-OPD achieves the best performance on 10 of 18 benchmarks with an average +3.9~pp improvement over the non-RL baseline with faster early convergence, controlled response length, and sustained multi-turn tool use.