ChatPaper.aiChatPaper

KI-Fitnessstudio für medizinische Agenten

Healthcare AI GYM for Medical Agents

May 1, 2026
Autoren: Minbyul Jeong
cs.AI

Zusammenfassung

Klinisches Denken erfordert mehrstufige Interaktionen – das Erheben der Patientengeschichte, das Anordnen von Tests, das Interpretieren von Ergebnissen und das Treffen sicherer Behandlungsentscheidungen – doch eine einheitliche Trainingsumgebung, die die Breite klinischer Domänen und spezialisierte Werkzeuge bereitstellt, um generalisierbare medizinische KI-Agenten durch Reinforcement Learning zu trainieren, bleibt schwer fassbar. Wir präsentieren eine umfassende empirische Studie zu mehrstufigem, agentenbasiertem RL für medizinische KI, basierend auf einer gymnasium-kompatiblen Umgebung, die 10 klinische Domänen mit über 3.600 Aufgaben, 135 domänenspezifischen Werkzeugen und einer Wissensbasis von 828.000 medizinischen Textpassagen umspannt. Unsere Analyse zeigt, dass die agentenbasierte Mehrstufenstruktur zu ausufernden Einzelschritt-Monologen degeneriert, die durch monotone Längenexplosion und gleichzeitigen Verlust der Werkzeugnutzungshäufigkeit gekennzeichnet sind. Wir beschreiben, wie dieser Kollaps, zusammen mit Destillationsinstabilität, aus der Fehlausrichtung spärlicher Endbelohnungen mit sequenziellen klinischen Handlungsabläufen resultiert. Wir stellen fest, dass Standard-GRPO bei einigen Benchmarks eine hohe Endgenauigkeit erreicht, aber unter Trainingsinstabilität leidet, die sich in signifikanten Oszillationen der Antwortlänge und verlängerten Konvergenzphasen äußert. Um die Trainings Effizienz und Stabilität zu verbessern, schlagen wir Turn-level Truncated On-Policy Distillation (TT-OPD) vor, einen Selbst-Destillationsrahmen, bei dem ein gradientenfreier EMA-Lehrer ergebnisprivilegierte Informationen nutzt, um bei jedem Gesprächsschritt eine dichte, ergebnisbewusste KL-Regularisierung bereitzustellen. TT-OPD erzielt die beste Leistung bei 10 von 18 Benchmarks mit einer durchschnittlichen Verbesserung von +3,9 Prozentpunkten gegenüber der Nicht-RL-Basislinie, schnellerer früher Konvergenz, kontrollierter Antwortlänge und anhaltender Mehrstufen-Werkzeugnutzung.
English
Clinical reasoning demands multi-step interactions -- gathering patient history, ordering tests, interpreting results, and making safe treatment decisions -- yet a unified training environment provides the breadth of clinical domains and specialized tools to train generalizable medical AI agents through reinforcement learning remains elusive. We present a comprehensive empirical study of multi-turn agentic RL for medical AI, built on , a gymnasium-compatible environment spanning 10 clinical domains with 3.6K+ tasks, 135 domain-specific tools, and a knowledge base of 828K medical passages. Our analysis reveals that agentic multi-turn structure degrades into verbose single-turn monologues, characterized by monotonic length explosion and a simultaneous erosion of tool-use frequency. We characterize how this collapse, alongside distillation instability, stems from the misalignment of sparse terminal rewards with sequential clinical trajectories. We find that vanilla GRPO achieves strong final accuracy on some benchmarks but suffers from training instability, evidenced by significant oscillations in response length and prolonged convergence periods. To improve training efficiency and stability, we propose Turn-level Truncated On-Policy Distillation (TT-OPD), a self-distillation framework where a gradient-free EMA teacher leverages outcome-privileged information to provide dense, outcome-aware KL regularization at every conversation turn. TT-OPD achieves the best performance on 10 of 18 benchmarks with an average +3.9~pp improvement over the non-RL baseline with faster early convergence, controlled response length, and sustained multi-turn tool use.
PDF12May 7, 2026