MedAgentGym : Entraînement d'agents LLM pour le raisonnement médical basé sur le code à grande échelle

papers.abstract

Nous présentons MedAgentGYM, le premier environnement d'entraînement accessible au public conçu pour renforcer les capacités de raisonnement médical basé sur le codage chez les agents de grands modèles de langage (LLM). MedAgentGYM comprend 72 413 instances de tâches réparties dans 129 catégories, issues de scénarios biomédicaux authentiques et réels. Les tâches sont encapsulées dans des environnements de codage exécutables, chacun comportant des descriptions détaillées des tâches, des mécanismes de feedback interactifs, des annotations vérifiables de référence, et une génération évolutive de trajectoires d'entraînement. Un benchmarking approfondi de plus de 30 LLM révèle une disparité notable de performance entre les modèles basés sur des API commerciales et leurs homologues open-source. En exploitant MedAgentGYM, Med-Copilot-7B obtient des gains de performance substantiels grâce à un fine-tuning supervisé (+36,44 %) et à un apprentissage par renforcement continu (+42,47 %), émergeant ainsi comme une alternative abordable et respectueuse de la vie privée, compétitive avec gpt-4o. En offrant à la fois un benchmark complet et des ressources d'entraînement accessibles et extensibles au sein d'environnements d'exécution unifiés, MedAgentGYM fournit une plateforme intégrée pour développer des assistants de codage basés sur LLM destinés à la recherche et à la pratique biomédicale avancée.

English

We introduce MedAgentGYM, the first publicly available training environment designed to enhance coding-based medical reasoning capabilities in large language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across 129 categories derived from authentic real-world biomedical scenarios. Tasks are encapsulated within executable coding environments, each featuring detailed task descriptions, interactive feedback mechanisms, verifiable ground-truth annotations, and scalable training trajectory generation. Extensive benchmarking of over 30 LLMs reveals a notable performance disparity between commercial API-based models and open-source counterparts. Leveraging MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through supervised fine-tuning (+36.44%) and continued reinforcement learning (+42.47%), emerging as an affordable and privacy-preserving alternative competitive with gpt-4o. By offering both a comprehensive benchmark and accessible, expandable training resources within unified execution environments, MedAgentGYM delivers an integrated platform to develop LLM-based coding assistants for advanced biomedical research and practice.

MedAgentGym : Entraînement d'agents LLM pour le raisonnement médical basé sur le code à grande échelle

MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

papers.abstract

Support