MedAgentGym: Addestramento di Agenti LLM per il Ragionamento Medico Basato su Codice su Larga Scala
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale
June 4, 2025
Autori: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi
cs.AI
Abstract
Presentiamo MedAgentGYM, il primo ambiente di formazione pubblicamente disponibile progettato per potenziare le capacità di ragionamento medico basato su codifica nei modelli linguistici di grandi dimensioni (LLM). MedAgentGYM comprende 72.413 istanze di attività distribuite in 129 categorie, derivate da scenari biomedici autentici del mondo reale. Le attività sono racchiuse in ambienti di codifica eseguibili, ciascuno dotato di descrizioni dettagliate dei compiti, meccanismi di feedback interattivi, annotazioni verificabili di verità di base e generazione scalabile di traiettorie di formazione. Un'ampia valutazione di oltre 30 LLM rivela una notevole disparità di prestazioni tra i modelli basati su API commerciali e le controparti open-source. Sfruttando MedAgentGYM, Med-Copilot-7B ottiene significativi miglioramenti delle prestazioni attraverso la messa a punto supervisionata (+36,44%) e il continuo apprendimento per rinforzo (+42,47%), emergendo come un'alternativa economica e rispettosa della privacy, competitiva con gpt-4o. Offrendo sia un benchmark completo che risorse di formazione accessibili e ampliabili all'interno di ambienti di esecuzione unificati, MedAgentGYM fornisce una piattaforma integrata per sviluppare assistenti di codifica basati su LLM per la ricerca e la pratica biomedica avanzata.
English
We introduce MedAgentGYM, the first publicly available training environment
designed to enhance coding-based medical reasoning capabilities in large
language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across
129 categories derived from authentic real-world biomedical scenarios. Tasks
are encapsulated within executable coding environments, each featuring detailed
task descriptions, interactive feedback mechanisms, verifiable ground-truth
annotations, and scalable training trajectory generation. Extensive
benchmarking of over 30 LLMs reveals a notable performance disparity between
commercial API-based models and open-source counterparts. Leveraging
MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through
supervised fine-tuning (+36.44%) and continued reinforcement learning
(+42.47%), emerging as an affordable and privacy-preserving alternative
competitive with gpt-4o. By offering both a comprehensive benchmark and
accessible, expandable training resources within unified execution
environments, MedAgentGYM delivers an integrated platform to develop LLM-based
coding assistants for advanced biomedical research and practice.