Gymnase d'IA en Santé pour Agents Médicaux
Healthcare AI GYM for Medical Agents
May 1, 2026
Auteurs: Minbyul Jeong
cs.AI
Résumé
Le raisonnement clinique exige des interactions multi-étapes — recueil de l'anamnèse, prescription d'examens, interprétation des résultats et prise de décisions thérapeutiques sûres — pourtant, un environnement d'entraînement unifié offrant la diversité des domaines cliniques et les outils spécialisés nécessaires pour former des agents d'IA médicale généralisables par apprentissage par renforcement reste inaccessible. Nous présentons une étude empirique complète du RL agentiel multi-tours pour l'IA médicale, construite sur [Nom de l'environnement], un environnement compatible Gymnasium couvrant 10 domaines cliniques avec plus de 3 600 tâches, 135 outils spécialisés par domaine et une base de connaissances de 828 000 passages médicaux. Notre analyse révèle que la structure agentielle multi-tours dégénère en monologues verbeux en un seul tour, caractérisés par une explosion monotone de la longueur et une érosion simultanée de la fréquence d'utilisation des outils. Nous caractérisons comment cet effondrement, ainsi que l'instabilité de la distillation, découlent du désalignement entre les récompenses terminales éparses et les trajectoires cliniques séquentielles. Nous constatons que le GRPO standard atteint une forte précision finale sur certains benchmarks mais souffre d'une instabilité à l'entraînement, mise en évidence par des oscillations significatives de la longueur des réponses et des périodes de convergence prolongées. Pour améliorer l'efficacité et la stabilité de l'entraînement, nous proposons la Distillation sur Politique Tronquée au Niveau du Tour (TT-OPD), un cadre d'auto-distillation où un enseignant EMA sans gradient exploite une information privilégiée sur le résultat pour fournir une régularisation KL dense et consciente du résultat à chaque tour de conversation. TT-OPD obtient les meilleures performances sur 10 des 18 benchmarks avec une amélioration moyenne de +3,9 points de pourcentage par rapport à la baseline non-RL, une convergence précoce plus rapide, une longueur de réponse contrôlée et une utilisation soutenue des outils multi-tours.
English
Clinical reasoning demands multi-step interactions -- gathering patient history, ordering tests, interpreting results, and making safe treatment decisions -- yet a unified training environment provides the breadth of clinical domains and specialized tools to train generalizable medical AI agents through reinforcement learning remains elusive. We present a comprehensive empirical study of multi-turn agentic RL for medical AI, built on , a gymnasium-compatible environment spanning 10 clinical domains with 3.6K+ tasks, 135 domain-specific tools, and a knowledge base of 828K medical passages. Our analysis reveals that agentic multi-turn structure degrades into verbose single-turn monologues, characterized by monotonic length explosion and a simultaneous erosion of tool-use frequency. We characterize how this collapse, alongside distillation instability, stems from the misalignment of sparse terminal rewards with sequential clinical trajectories. We find that vanilla GRPO achieves strong final accuracy on some benchmarks but suffers from training instability, evidenced by significant oscillations in response length and prolonged convergence periods. To improve training efficiency and stability, we propose Turn-level Truncated On-Policy Distillation (TT-OPD), a self-distillation framework where a gradient-free EMA teacher leverages outcome-privileged information to provide dense, outcome-aware KL regularization at every conversation turn. TT-OPD achieves the best performance on 10 of 18 benchmarks with an average +3.9~pp improvement over the non-RL baseline with faster early convergence, controlled response length, and sustained multi-turn tool use.