MedAgentGym: Het trainen van LLM-agents voor codegebaseerd medisch redeneren op grote schaal
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale
June 4, 2025
Auteurs: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi
cs.AI
Samenvatting
We introduceren MedAgentGYM, de eerste publiek beschikbare trainingsomgeving die is ontworpen om coderingsgebaseerde medische redeneervaardigheden in grote taalmodelagents (LLM) te verbeteren. MedAgentGYM omvat 72.413 taakinstanties verdeeld over 129 categorieën, afgeleid van authentieke biomedische scenario's uit de echte wereld. Taken zijn ingekapseld in uitvoerbare coderingsomgevingen, elk voorzien van gedetailleerde taakbeschrijvingen, interactieve feedbackmechanismen, verifieerbare grondwaarheidannotaties en schaalbare trainingsbaangeneratie. Uitgebreide benchmarking van meer dan 30 LLM's toont een opvallend prestatieverschil tussen commerciële API-gebaseerde modellen en open-source tegenhangers. Door gebruik te maken van MedAgentGYM behaalt Med-Copilot-7B aanzienlijke prestatieverbeteringen via supervised fine-tuning (+36,44%) en voortgezet reinforcement learning (+42,47%), en positioneert zichzelf als een betaalbaar en privacybeschermend alternatief dat competitief is met gpt-4o. Door zowel een uitgebreide benchmark als toegankelijke, uitbreidbare trainingsbronnen te bieden binnen geïntegreerde uitvoeringsomgevingen, biedt MedAgentGYM een geïntegreerd platform voor de ontwikkeling van LLM-gebaseerde coderingsassistenten voor geavanceerd biomedisch onderzoek en praktijk.
English
We introduce MedAgentGYM, the first publicly available training environment
designed to enhance coding-based medical reasoning capabilities in large
language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across
129 categories derived from authentic real-world biomedical scenarios. Tasks
are encapsulated within executable coding environments, each featuring detailed
task descriptions, interactive feedback mechanisms, verifiable ground-truth
annotations, and scalable training trajectory generation. Extensive
benchmarking of over 30 LLMs reveals a notable performance disparity between
commercial API-based models and open-source counterparts. Leveraging
MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through
supervised fine-tuning (+36.44%) and continued reinforcement learning
(+42.47%), emerging as an affordable and privacy-preserving alternative
competitive with gpt-4o. By offering both a comprehensive benchmark and
accessible, expandable training resources within unified execution
environments, MedAgentGYM delivers an integrated platform to develop LLM-based
coding assistants for advanced biomedical research and practice.