MedAgentGym: Addestramento di Agenti LLM per il Ragionamento Medico Basato su Codice su Larga Scala

Abstract

Presentiamo MedAgentGYM, il primo ambiente di formazione pubblicamente disponibile progettato per potenziare le capacità di ragionamento medico basato su codifica nei modelli linguistici di grandi dimensioni (LLM). MedAgentGYM comprende 72.413 istanze di attività distribuite in 129 categorie, derivate da scenari biomedici autentici del mondo reale. Le attività sono racchiuse in ambienti di codifica eseguibili, ciascuno dotato di descrizioni dettagliate dei compiti, meccanismi di feedback interattivi, annotazioni verificabili di verità di base e generazione scalabile di traiettorie di formazione. Un'ampia valutazione di oltre 30 LLM rivela una notevole disparità di prestazioni tra i modelli basati su API commerciali e le controparti open-source. Sfruttando MedAgentGYM, Med-Copilot-7B ottiene significativi miglioramenti delle prestazioni attraverso la messa a punto supervisionata (+36,44%) e il continuo apprendimento per rinforzo (+42,47%), emergendo come un'alternativa economica e rispettosa della privacy, competitiva con gpt-4o. Offrendo sia un benchmark completo che risorse di formazione accessibili e ampliabili all'interno di ambienti di esecuzione unificati, MedAgentGYM fornisce una piattaforma integrata per sviluppare assistenti di codifica basati su LLM per la ricerca e la pratica biomedica avanzata.

English

We introduce MedAgentGYM, the first publicly available training environment designed to enhance coding-based medical reasoning capabilities in large language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across 129 categories derived from authentic real-world biomedical scenarios. Tasks are encapsulated within executable coding environments, each featuring detailed task descriptions, interactive feedback mechanisms, verifiable ground-truth annotations, and scalable training trajectory generation. Extensive benchmarking of over 30 LLMs reveals a notable performance disparity between commercial API-based models and open-source counterparts. Leveraging MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through supervised fine-tuning (+36.44%) and continued reinforcement learning (+42.47%), emerging as an affordable and privacy-preserving alternative competitive with gpt-4o. By offering both a comprehensive benchmark and accessible, expandable training resources within unified execution environments, MedAgentGYM delivers an integrated platform to develop LLM-based coding assistants for advanced biomedical research and practice.

MedAgentGym: Addestramento di Agenti LLM per il Ragionamento Medico Basato su Codice su Larga Scala

MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

Abstract

Support