MedAgentGym : Entraînement d'agents LLM pour le raisonnement médical basé sur le code à grande échelle
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale
June 4, 2025
Auteurs: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi
cs.AI
Résumé
Nous présentons MedAgentGYM, le premier environnement d'entraînement accessible au public conçu pour renforcer les capacités de raisonnement médical basé sur le codage chez les agents de grands modèles de langage (LLM). MedAgentGYM comprend 72 413 instances de tâches réparties dans 129 catégories, issues de scénarios biomédicaux authentiques et réels. Les tâches sont encapsulées dans des environnements de codage exécutables, chacun comportant des descriptions détaillées des tâches, des mécanismes de feedback interactifs, des annotations vérifiables de référence, et une génération évolutive de trajectoires d'entraînement. Un benchmarking approfondi de plus de 30 LLM révèle une disparité notable de performance entre les modèles basés sur des API commerciales et leurs homologues open-source. En exploitant MedAgentGYM, Med-Copilot-7B obtient des gains de performance substantiels grâce à un fine-tuning supervisé (+36,44 %) et à un apprentissage par renforcement continu (+42,47 %), émergeant ainsi comme une alternative abordable et respectueuse de la vie privée, compétitive avec gpt-4o. En offrant à la fois un benchmark complet et des ressources d'entraînement accessibles et extensibles au sein d'environnements d'exécution unifiés, MedAgentGYM fournit une plateforme intégrée pour développer des assistants de codage basés sur LLM destinés à la recherche et à la pratique biomédicale avancée.
English
We introduce MedAgentGYM, the first publicly available training environment
designed to enhance coding-based medical reasoning capabilities in large
language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across
129 categories derived from authentic real-world biomedical scenarios. Tasks
are encapsulated within executable coding environments, each featuring detailed
task descriptions, interactive feedback mechanisms, verifiable ground-truth
annotations, and scalable training trajectory generation. Extensive
benchmarking of over 30 LLMs reveals a notable performance disparity between
commercial API-based models and open-source counterparts. Leveraging
MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through
supervised fine-tuning (+36.44%) and continued reinforcement learning
(+42.47%), emerging as an affordable and privacy-preserving alternative
competitive with gpt-4o. By offering both a comprehensive benchmark and
accessible, expandable training resources within unified execution
environments, MedAgentGYM delivers an integrated platform to develop LLM-based
coding assistants for advanced biomedical research and practice.